n-gram Frequency Ranking with additional sources of information in a multiple-Gaussian classifier for Language Identification

Córdoba Herralde, Ricardo de; D'haro Enríquez, Luis Fernando; Lucas Cuesta, Juan Manuel y Zugasti Raposo, Javier (2008). n-gram Frequency Ranking with additional sources of information in a multiple-Gaussian classifier for Language Identification. En: "V Jornadas en Tecnología del Habla", 12/11/2008-14/11/2008, Bilbao. ISBN 978-84-9860-169-5. pp. 49-52.

Descripción

Título: n-gram Frequency Ranking with additional sources of information in a multiple-Gaussian classifier for Language Identification
Autor/es:
  • Córdoba Herralde, Ricardo de
  • D'haro Enríquez, Luis Fernando
  • Lucas Cuesta, Juan Manuel
  • Zugasti Raposo, Javier
Tipo de Documento: Ponencia en Congreso o Jornada (Artículo)
Título del Evento: V Jornadas en Tecnología del Habla
Fechas del Evento: 12/11/2008-14/11/2008
Lugar del Evento: Bilbao
Título del Libro: Libro de Actas
Fecha: 2008
ISBN: 978-84-9860-169-5
Materias:
Palabras Clave Informales: Language Identification, n-gram frequency ranking, score normalization, feature selection, PPRLM
Escuela: E.T.S.I. Telecomunicación (UPM)
Departamento: Ingeniería Electrónica
Licencias Creative Commons: Reconocimiento - Sin obra derivada - No comercial

Texto completo

[img]
Vista Previa
PDF (Document Portable Format) - Se necesita un visor de ficheros PDF, como GSview, Xpdf o Adobe Acrobat Reader
Descargar (60kB) | Vista Previa

Resumen

We present new results of our n-gram frequency ranking used for language identification. We use a Parallel phone recognizer (as in PPRLM), but instead of the language model, we create a ranking with the most frequent n-grams. Then we compute the distance between the input sentence ranking and each language ranking, based on the difference in relative positions for each n-gram. The objective of this ranking is to model reliably a longer span than PPRLM. This approach overcomes PPRLM (15% relative improvement) due to the inclusion of 4-gram and 5-gram in the classifier. We will also see that the combination of this technique with other sources of information (feature vectors in our classifier) is also advantageous over PPRLM, showing also a detailed analysis of the relevance of these sources and a simple feature selection technique to cope with long feature vectors. The test database has been significantly increased using cross-fold validation, so comparisons are now more reliable.

Más información

ID de Registro: 3141
Identificador DC: http://oa.upm.es/3141/
Identificador OAI: oai:oa.upm.es:3141
URL Oficial: http://jth2008.ehu.es/
Depositado por: Memoria Investigacion
Depositado el: 27 May 2010 08:22
Ultima Modificación: 20 Abr 2016 12:41
  • Open Access
  • Open Access
  • Sherpa-Romeo
    Compruebe si la revista anglosajona en la que ha publicado un artículo permite también su publicación en abierto.
  • Dulcinea
    Compruebe si la revista española en la que ha publicado un artículo permite también su publicación en abierto.
  • Recolecta
  • e-ciencia
  • Observatorio I+D+i UPM
  • OpenCourseWare UPM