An insight to the automatic categorization of speakers according to sex and its application to the detection of voice pathologies : a comparative study

Gómez García, Jorge Andrés; Moro Velázquez, Laureano; Godino Llorente, Juan Ignacio y Castellanos Domínguez, Germán (2016). An insight to the automatic categorization of speakers according to sex and its application to the detection of voice pathologies : a comparative study. "Revista Facultad de Ingeniería Universidad de Antioquia", v. 79 ; pp. 50-62. ISSN 0120-6230. https://doi.org/10.17533/udea.redin.n79a06.

Descripción

Título: An insight to the automatic categorization of speakers according to sex and its application to the detection of voice pathologies : a comparative study
Autor/es:
  • Gómez García, Jorge Andrés
  • Moro Velázquez, Laureano
  • Godino Llorente, Juan Ignacio
  • Castellanos Domínguez, Germán
Tipo de Documento: Artículo
Título de Revista/Publicación: Revista Facultad de Ingeniería Universidad de Antioquia
Fecha: 2016
Volumen: 79
Materias:
Palabras Clave Informales: Voice pathology detection; inverse filtering; GMM; UBM = Detección de la patología de voz; filtrado inverso; GMM; UBM
Escuela: E.T.S.I. y Sistemas de Telecomunicación (UPM)
Departamento: Teoría de la Señal y Comunicaciones
Licencias Creative Commons: Reconocimiento - Sin obra derivada - No comercial

Texto completo

[img]
Vista Previa
PDF (Document Portable Format) - Se necesita un visor de ficheros PDF, como GSview, Xpdf o Adobe Acrobat Reader
Descargar (1MB) | Vista Previa

Resumen

An automatic categorization of the speakers according to their sex improves the performance of an automatic detector of voice pathologies. This is grounded on findings demonstrating perceptual, acoustical and anatomical differences in males’ and females’ voices. In particular, this paper follows two objectives: 1) to design a system which automatically discriminates the sex of a speaker when using normophonic and pathological speech, 2) to study the influence that this sex detector has on the accuracy of a further voice pathology detector. The parameterization of the automatic sex detector relies on MFCC applied to speech; and MFCC applied to glottal waveforms plus parameters modeling the vocal tract. The glottal waveforms are extracted from speech via iterative lattice inverse filters. Regarding the pathology detector, a MFCC parameterization is applied to speech signals. Classification, in both sex and pathology detectors, is carried out using state of the art techniques based on universal background models. Experiments are performed in the Saarbrücken database, employing the sustained phonation of vowel /a/. Results indicate that the sex of the speaker may be discriminated automatically using normophonic and pathological speech, obtaining accuracy up to 95%. Moreover, including the a-priori information about the sex of the speaker produces an absolute performance improvement in EER of about 2% on pathology detection tasks. RESUMEN. Una categorización automática de los hablantes de acuerdo con su sexo mejora el rendimiento de un detector automático de patologías de voz. Esto se fundamenta en hallazgos que demuestran diferencias perceptuales, acústicas y anatómicas en voces masculinas y femeninas. En particular, este trabajo persigue dos objetivos: 1) diseñar un sistema que discrimine automáticamente el sexo de hablantes utilizando habla normofónica y patológica, 2) estudiar la influencia que este detector de sexo tiene sobre el acierto de un posterior detector de patologías de voz. La parametrización del detector automático de sexo se basa en MFCC aplicados sobre señales de voz; y MFCC aplicados a formas de onda glotal junto a parámetros que modelan el tracto vocal. Las formas de onda glotal se extraen de la voz a través de un filtrado inverso iterativo en celosía. En cuanto al detector de patologías, una parametrización MFCC se aplica a señales de voz. La clasificación, tanto en los detectores de sexo como de patología, se lleva a cabo con técnicas del estado del arte basadas en modelos de base universal. Experimentos son realizados sobre la base de datos Saarbrücken empleando la fonación sostenida de la vocal /a/. Los resultados indican que el sexo del hablante puede ser discriminado automáticamente utilizando habla normofónica y patológica, obteniendo una precisión de hasta un 95%. Por otra parte, al incluir información a priori sobre el sexo del hablante se produce una mejora de alrededor del 2% de rendimiento absoluto en EER, en tareas de detección de patología.

Proyectos asociados

TipoCódigoAcrónimoResponsableTítulo
Gobierno de EspañaTEC2012-38630-C04-01Sin especificarSin especificarEvaluación multimodal de trastornos neurológicos mediante la caracterización de la voz, dinámica de los pliegues vocales y secuencias sacádicas
Universidad Politécnica de MadridRR01/2011Sin especificarSin especificarAyudas para la realización del doctorado

Más información

ID de Registro: 50317
Identificador DC: http://oa.upm.es/50317/
Identificador OAI: oai:oa.upm.es:50317
Identificador DOI: 10.17533/udea.redin.n79a06
Depositado por: Memoria Investigacion
Depositado el: 25 Abr 2018 15:57
Ultima Modificación: 25 Abr 2018 15:57
  • GEO_UP4
  • Open Access
  • Open Access
  • Sherpa-Romeo
    Compruebe si la revista anglosajona en la que ha publicado un artículo permite también su publicación en abierto.
  • Dulcinea
    Compruebe si la revista española en la que ha publicado un artículo permite también su publicación en abierto.
  • Recolecta
  • InvestigaM
  • Observatorio I+D+i UPM
  • OpenCourseWare UPM