Reconocimiento de habla robusto frente a condiciones de ruido aditivo y convolutivo

Gallardo Antolín, Ascensión (2002). Reconocimiento de habla robusto frente a condiciones de ruido aditivo y convolutivo. Thesis (Doctoral), E.T.S.I. Telecomunicación (UPM).

Description

Title: Reconocimiento de habla robusto frente a condiciones de ruido aditivo y convolutivo
Author/s:
  • Gallardo Antolín, Ascensión
Contributor/s:
  • Pardo Muñoz, José Manuel
Item Type: Thesis (Doctoral)
Date: 2002
Subjects:
Freetext Keywords: INTELIGENCIA ARTIFICIAL; RECONOCIMIENTO Y SINTETIZACION DE HABLA; DISEÑO Y COMPONENTES DE SISTEMAS DE INFORMACION; SISTEMAS EN TIEMPO REAL; CIENCIA DE LOS ORDENADORES; MATEMATICAS; TECNOLOGIA DE LOS ORDENADORES; CIENCIAS TECNOLOGICAS;
Faculty: E.T.S.I. Telecomunicación (UPM)
Department: Ingeniería Electrónica
Creative Commons Licenses: Recognition - No derivative works - Non commercial

Full text

[img]
Preview
PDF - Requires a PDF viewer, such as GSview, Xpdf or Adobe Acrobat Reader
Download (10MB) | Preview

Abstract

El funcionamiento de los sistemas de reconocimiento automático del habla sufre degradaciones importantes cuando las condiciones acústicas de los datos de entrenamiento y los datos de test son muy diferentes. Esta situación es habitual en los sistemas de RAH que funcionan en aplicaciones reales en las que la voz suele está contaminada por la presencia de ruido. En la presente Tesis se ha analizado el comportamiento de un sistema de RAH frente a tres tipos de distorsiones producidas por la presencia del canal telefónico y las debidas a la presencia de ruido de fondo. Para el caso de variabilidad interlocutor, se ha investigado la integración del modelado acústico (y léxico) múltiple en un sistema de reconocimiento de arquitectura multimodular de gran vocabulario en entorno telefónico, en el que se ha hecho especial énfasis en dos aspectos fundamentales: mejorar la tasa de inclusión y no incrementar de forma desproporcionada los requerimientos del sistema en cuanto a su carga computacional y memoria. De entre todas las alternativas consideradas, la que produce tasas menores de error es aquella en la que se utilizan múltiples modelos acústicos por unidad y un único conjunto de costes léxicos. Con respecto a la distorsión producida por el canal telefónico, se ha optado por la exploración de un conjunto de parametrizaciones robustas. En este ámbito, se ha analizado el funcionamiento de las técnicas de extracción de parámetros "clásicas" basadas en el análisis de Fourier tanto en el dominio cepstral (parámetros mel-cepstrum), como en el dominio log-espectral (filtrado de log-energías) y su combinación con las técnicas de normalización de parámetros (CMN y sus variantes). Tomando como referencia este análisis, se han propuesto un conjunto de parametrizaciones alternativas a las anteriores basadas en la transformada ondicular en los mismos dominios. Asimismo, se ha estudiado la posibilidad de combinación de los parámetros obtenidos de este modo con los obtenidos mediante análisis de Fourier. Mientras que los parámetros basados en la transformada ondicular presentan un funcionamiento similar a los convencionales, la combinación propuesta mejora las tasas de reconocimiento del sistema de manera significativa. A continuación, hemos abordado el problema de la optimización conjunta de los parametrizadores basados en la transformada ondicular y el clasificador basado en modelos ocultos de Markov mediante la aplicación de técnicas de extracción discriminativa de rastos (DFE). Dicha propuesta ha sido evaluada en dos tareas de distinta complejidad, obteniendo unos resultados consistentemente mejores a los obtenidos con las parametrizaciones convencionales. Por último, en el contexto de las distorsiones provocadas por la presencia de ruido aditivo, se ha realizado un estudio comparativo entre técnicas de transformación de parámetros (substracción espectral generalizada) y transformación de modelos acústicos (combinación de modelos en paralelo, PMC). Se han propuestos diversas modificaciones a los algoritmos anteriores basadas en la aplicación de una función de entorno en el dominio de las energías en banda que presenta dos características importantes: conceptualmente, es muy similar para ambos tipos de transformaciones y es más realista que las utilizadas habitualmente. En concreto, en esta función de entorno se ha incorporado una estimación del término cruzado (que habitualmente es ignorado) y que está relacionado con la correlación del habla limpia y el ruido (o el habla ruidosa y el ruido). Se ha evaluado esta estrategia para dos ruidos estacionarios distintos a varias relaciones señale a ruido. Los resultados muestran que esta función de entorno modificada mejora las tasas de reconocimiento obtenidas con las técnicas conveniconales, especialmente en el caso de transformación de parámetros.

More information

Item ID: 626
DC Identifier: http://oa.upm.es/626/
OAI Identifier: oai:oa.upm.es:626
Deposited by: Archivo Digital UPM
Deposited on: 03 Nov 2007
Last Modified: 20 Apr 2016 06:24
  • Logo InvestigaM (UPM)
  • Logo GEOUP4
  • Logo Open Access
  • Open Access
  • Logo Sherpa/Romeo
    Check whether the anglo-saxon journal in which you have published an article allows you to also publish it under open access.
  • Logo Dulcinea
    Check whether the spanish journal in which you have published an article allows you to also publish it under open access.
  • Logo de Recolecta
  • Logo del Observatorio I+D+i UPM
  • Logo de OpenCourseWare UPM