Reconocimiento de habla robusto frente a condiciones de ruido aditivo y convolutivo

Gallardo Antolín, Ascensión (2002). Reconocimiento de habla robusto frente a condiciones de ruido aditivo y convolutivo. Tesis (Doctoral), E.T.S.I. Telecomunicación (UPM).

Descripción

Título: Reconocimiento de habla robusto frente a condiciones de ruido aditivo y convolutivo
Autor/es:
  • Gallardo Antolín, Ascensión
Director/es:
  • Pardo Muñoz, José Manuel
Tipo de Documento: Tesis (Doctoral)
Fecha: 2002
Materias:
Palabras Clave Informales: INTELIGENCIA ARTIFICIAL; RECONOCIMIENTO Y SINTETIZACION DE HABLA; DISEÑO Y COMPONENTES DE SISTEMAS DE INFORMACION; SISTEMAS EN TIEMPO REAL; CIENCIA DE LOS ORDENADORES; MATEMATICAS; TECNOLOGIA DE LOS ORDENADORES; CIENCIAS TECNOLOGICAS;
Escuela: E.T.S.I. Telecomunicación (UPM)
Departamento: Ingeniería Electrónica
Licencias Creative Commons: Reconocimiento - Sin obra derivada - No comercial

Texto completo

[img]
Vista Previa
PDF (Document Portable Format) - Se necesita un visor de ficheros PDF, como GSview, Xpdf o Adobe Acrobat Reader
Descargar (10MB) | Vista Previa

Resumen

El funcionamiento de los sistemas de reconocimiento automático del habla sufre degradaciones importantes cuando las condiciones acústicas de los datos de entrenamiento y los datos de test son muy diferentes. Esta situación es habitual en los sistemas de RAH que funcionan en aplicaciones reales en las que la voz suele está contaminada por la presencia de ruido. En la presente Tesis se ha analizado el comportamiento de un sistema de RAH frente a tres tipos de distorsiones producidas por la presencia del canal telefónico y las debidas a la presencia de ruido de fondo. Para el caso de variabilidad interlocutor, se ha investigado la integración del modelado acústico (y léxico) múltiple en un sistema de reconocimiento de arquitectura multimodular de gran vocabulario en entorno telefónico, en el que se ha hecho especial énfasis en dos aspectos fundamentales: mejorar la tasa de inclusión y no incrementar de forma desproporcionada los requerimientos del sistema en cuanto a su carga computacional y memoria. De entre todas las alternativas consideradas, la que produce tasas menores de error es aquella en la que se utilizan múltiples modelos acústicos por unidad y un único conjunto de costes léxicos. Con respecto a la distorsión producida por el canal telefónico, se ha optado por la exploración de un conjunto de parametrizaciones robustas. En este ámbito, se ha analizado el funcionamiento de las técnicas de extracción de parámetros "clásicas" basadas en el análisis de Fourier tanto en el dominio cepstral (parámetros mel-cepstrum), como en el dominio log-espectral (filtrado de log-energías) y su combinación con las técnicas de normalización de parámetros (CMN y sus variantes). Tomando como referencia este análisis, se han propuesto un conjunto de parametrizaciones alternativas a las anteriores basadas en la transformada ondicular en los mismos dominios. Asimismo, se ha estudiado la posibilidad de combinación de los parámetros obtenidos de este modo con los obtenidos mediante análisis de Fourier. Mientras que los parámetros basados en la transformada ondicular presentan un funcionamiento similar a los convencionales, la combinación propuesta mejora las tasas de reconocimiento del sistema de manera significativa. A continuación, hemos abordado el problema de la optimización conjunta de los parametrizadores basados en la transformada ondicular y el clasificador basado en modelos ocultos de Markov mediante la aplicación de técnicas de extracción discriminativa de rastos (DFE). Dicha propuesta ha sido evaluada en dos tareas de distinta complejidad, obteniendo unos resultados consistentemente mejores a los obtenidos con las parametrizaciones convencionales. Por último, en el contexto de las distorsiones provocadas por la presencia de ruido aditivo, se ha realizado un estudio comparativo entre técnicas de transformación de parámetros (substracción espectral generalizada) y transformación de modelos acústicos (combinación de modelos en paralelo, PMC). Se han propuestos diversas modificaciones a los algoritmos anteriores basadas en la aplicación de una función de entorno en el dominio de las energías en banda que presenta dos características importantes: conceptualmente, es muy similar para ambos tipos de transformaciones y es más realista que las utilizadas habitualmente. En concreto, en esta función de entorno se ha incorporado una estimación del término cruzado (que habitualmente es ignorado) y que está relacionado con la correlación del habla limpia y el ruido (o el habla ruidosa y el ruido). Se ha evaluado esta estrategia para dos ruidos estacionarios distintos a varias relaciones señale a ruido. Los resultados muestran que esta función de entorno modificada mejora las tasas de reconocimiento obtenidas con las técnicas conveniconales, especialmente en el caso de transformación de parámetros.

Más información

ID de Registro: 626
Identificador DC: http://oa.upm.es/626/
Identificador OAI: oai:oa.upm.es:626
Depositado por: Archivo Digital UPM
Depositado el: 03 Nov 2007
Ultima Modificación: 20 Abr 2016 06:24
  • Open Access
  • Open Access
  • Sherpa-Romeo
    Compruebe si la revista anglosajona en la que ha publicado un artículo permite también su publicación en abierto.
  • Dulcinea
    Compruebe si la revista española en la que ha publicado un artículo permite también su publicación en abierto.
  • Recolecta
  • e-ciencia
  • Observatorio I+D+i UPM
  • OpenCourseWare UPM