Architecture for text normalization using statistical machine translation techniques

Lopez Ludeña, Veronica; San Segundo Hernández, Rubén; Montero Martínez, Juan Manuel; Barra Chicote, Roberto y Lorenzo Trueba, Jaime (2012). Architecture for text normalization using statistical machine translation techniques. En: "VII Jornadas en Tecnología del Habla and III Iberian SLTech", 21/11/2012 - 22/11/2012, Madrid, España. pp. 204-213.

Descripción

Título: Architecture for text normalization using statistical machine translation techniques
Autor/es:
  • Lopez Ludeña, Veronica
  • San Segundo Hernández, Rubén
  • Montero Martínez, Juan Manuel
  • Barra Chicote, Roberto
  • Lorenzo Trueba, Jaime
Tipo de Documento: Ponencia en Congreso o Jornada (Artículo)
Título del Evento: VII Jornadas en Tecnología del Habla and III Iberian SLTech
Fechas del Evento: 21/11/2012 - 22/11/2012
Lugar del Evento: Madrid, España
Título del Libro: Jornadas en Tecnología del Habla and III Iberian SLTech
Fecha: 2012
Materias:
Palabras Clave Informales: Text normalization, text to speech conversion, language translation, numbers, acronyms, abbreviations.
Escuela: E.T.S.I. Telecomunicación (UPM)
Departamento: Ingeniería Electrónica
Licencias Creative Commons: Reconocimiento - Sin obra derivada - No comercial

Texto completo

[img]
Vista Previa
PDF (Document Portable Format) - Se necesita un visor de ficheros PDF, como GSview, Xpdf o Adobe Acrobat Reader
Descargar (275kB) | Vista Previa

Resumen

This paper proposes an architecture, based on statistical machine translation, for developing the text normalization module of a text to speech conversion system. The main target is to generate a language independent text normalization module, based on data and flexible enough to deal with all situa-tions presented in this task. The proposed architecture is composed by three main modules: a tokenizer module for splitting the text input into a token graph (tokenization), a phrase-based translation module (token translation) and a post-processing module for removing some tokens. This paper presents initial exper-iments for numbers and abbreviations. The very good results obtained validate the proposed architecture.

Más información

ID de Registro: 20353
Identificador DC: http://oa.upm.es/20353/
Identificador OAI: oai:oa.upm.es:20353
Depositado por: Memoria Investigacion
Depositado el: 02 Oct 2013 16:27
Ultima Modificación: 21 Abr 2016 23:06
  • Open Access
  • Open Access
  • Sherpa-Romeo
    Compruebe si la revista anglosajona en la que ha publicado un artículo permite también su publicación en abierto.
  • Dulcinea
    Compruebe si la revista española en la que ha publicado un artículo permite también su publicación en abierto.
  • Recolecta
  • e-ciencia
  • Observatorio I+D+i UPM
  • OpenCourseWare UPM