On the use of phone-gram units in recurrent neural networks for language identification

Salamea Palacios, Christian Raúl; D'Haro Enríquez, Luis Fernando; Cordoba Herralde, Ricardo de y San Segundo Hernández, Rubén (2016). On the use of phone-gram units in recurrent neural networks for language identification. En: "Odyssey 2016: The Speaker and Language Recognition Workshop", 21/06/2016 - 24/06/2016, Bilbao - España. pp. 117-123. https://doi.org/DOI: 10.21437/Odyssey.2016-17.

Descripción

Título: On the use of phone-gram units in recurrent neural networks for language identification
Autor/es:
  • Salamea Palacios, Christian Raúl
  • D'Haro Enríquez, Luis Fernando
  • Cordoba Herralde, Ricardo de
  • San Segundo Hernández, Rubén
Tipo de Documento: Ponencia en Congreso o Jornada (Artículo)
Título del Evento: Odyssey 2016: The Speaker and Language Recognition Workshop
Fechas del Evento: 21/06/2016 - 24/06/2016
Lugar del Evento: Bilbao - España
Título del Libro: Proceedings of The Speaker and Language Recognition Workshop, Odyssey 2016
Fecha: Junio 2016
Materias:
Escuela: E.T.S.I. Telecomunicación (UPM)
Departamento: Ingeniería Electrónica
Licencias Creative Commons: Reconocimiento - Sin obra derivada - No comercial

Texto completo

[img]
Vista Previa
PDF (Document Portable Format) - Se necesita un visor de ficheros PDF, como GSview, Xpdf o Adobe Acrobat Reader
Descargar (147kB) | Vista Previa

Resumen

In this paper we present our results on using RNN-based LM scores trained on different phone-gram orders and using different phonetic ASR recognizers. In order to avoid data sparseness problems and to reduce the vocabulary of all possible n-gram combinations, a K-means clustering procedure was performed using phone-vector embeddings as a pre-processing step. Additional experiments to optimize the amount of classes, batch-size, hidden neurons, state-unfolding, are also presented. We have worked with the KALAKA-3 database for the plenty-closed condition [1]. Thanks to our clustering technique and the combination of high level phonegrams, our phonotactic system performs ~13% better than the unigram-based RNNLM system. Also, the obtained RNNLM scores are calibrated and fused with other scores from an acoustic-based i-vector system and a traditional PPRLM system. This fusion provides additional improvements showing that they provide complementary information to the LID system.

Proyectos asociados

TipoCódigoAcrónimoResponsableTítulo
Comunidad de MadridTIN2014-54288-C4-1-RASLP-MULÁNSin especificarSin especificar
Comunidad de MadridMICINN DPI2014-53525-C3-2-RNAVEGABLESin especificarSin especificar
Comunidad de MadridS2009/TIC-1542MA2VICMRSin especificarSin especificar

Más información

ID de Registro: 47224
Identificador DC: http://oa.upm.es/47224/
Identificador OAI: oai:oa.upm.es:47224
Identificador DOI: DOI: 10.21437/Odyssey.2016-17
URL Oficial: http://www.odyssey2016.org/papers/pdfs_stamped/53.pdf
Depositado por: Memoria Investigacion
Depositado el: 24 Oct 2017 16:20
Ultima Modificación: 24 Oct 2017 16:20
  • Open Access
  • Open Access
  • Sherpa-Romeo
    Compruebe si la revista anglosajona en la que ha publicado un artículo permite también su publicación en abierto.
  • Dulcinea
    Compruebe si la revista española en la que ha publicado un artículo permite también su publicación en abierto.
  • Recolecta
  • e-ciencia
  • Observatorio I+D+i UPM
  • OpenCourseWare UPM