Phoneme and Sub-Phoneme T-Normalization for Text-Dependent Speaker Recognition

Torre Toledano, Doroteo; Esteve-Elizalde, Cristina; Gonzalez-Rodriguez, Joaquin; Fernández Pozo, Rubén y Hernández Gómez, Luis Alfonso (2008). Phoneme and Sub-Phoneme T-Normalization for Text-Dependent Speaker Recognition. En: "IEEE Odyssey 2008 Workshop on Speaker and Language Recognition", 21/01/2008-24/01/2008, Stellenbosch, Sudáfrica. ISBN 978-0-620-40331-3.

Descripción

Título: Phoneme and Sub-Phoneme T-Normalization for Text-Dependent Speaker Recognition
Autor/es:
  • Torre Toledano, Doroteo
  • Esteve-Elizalde, Cristina
  • Gonzalez-Rodriguez, Joaquin
  • Fernández Pozo, Rubén
  • Hernández Gómez, Luis Alfonso
Tipo de Documento: Ponencia en Congreso o Jornada (Artículo)
Título del Evento: IEEE Odyssey 2008 Workshop on Speaker and Language Recognition
Fechas del Evento: 21/01/2008-24/01/2008
Lugar del Evento: Stellenbosch, Sudáfrica
Título del Libro: Proceedings of the IEEE Odyssey 2008 Workshop on Speaker and Language Recognition
Fecha: 2008
ISBN: 978-0-620-40331-3
Materias:
Escuela: E.T.S.I. Telecomunicación (UPM)
Departamento: Señales, Sistemas y Radiocomunicaciones
Licencias Creative Commons: Reconocimiento - Sin obra derivada - No comercial

Texto completo

[img]
Vista Previa
PDF (Document Portable Format) - Se necesita un visor de ficheros PDF, como GSview, Xpdf o Adobe Acrobat Reader
Descargar (285kB) | Vista Previa

Resumen

Test normalization (T-Norm) is a score normalization technique that is regularly and successfully applied in the context of text-independent speaker recognition. It is less frequently applied, however, to text-dependent or textprompted speaker recognition, mainly because its improvement in this context is more modest. In this paper we present a novel way to improve the performance of T-Norm for text-dependent systems. It consists in applying score TNormalization at the phoneme or sub-phoneme level instead of at the sentence level. Experiments on the YOHO corpus show that, while using standard sentence-level T-Norm does not improve equal error rate (EER), phoneme and sub-phoneme level T-Norm produce a relative EER reduction of 18.9% and 20.1% respectively on a state-of-the-art HMM based textdependent speaker recognition system. Results are even better for working points with low false acceptance rates.

Más información

ID de Registro: 4312
Identificador DC: http://oa.upm.es/4312/
Identificador OAI: oai:oa.upm.es:4312
URL Oficial: http://www.isca-speech.org/archive/odyssey_2008/od08_029.html
Depositado por: Memoria Investigacion
Depositado el: 27 Sep 2010 08:32
Ultima Modificación: 20 Abr 2016 13:35
  • Open Access
  • Open Access
  • Sherpa-Romeo
    Compruebe si la revista anglosajona en la que ha publicado un artículo permite también su publicación en abierto.
  • Dulcinea
    Compruebe si la revista española en la que ha publicado un artículo permite también su publicación en abierto.
  • Recolecta
  • e-ciencia
  • Observatorio I+D+i UPM
  • OpenCourseWare UPM