New experiments on speaker diarization for unsupervised speaking style voice building for speech synthesis

Martínez González, Beatriz; Pardo Muñoz, José Manuel; Echeverry Correa, Julian David y Montero Martínez, Juan Manuel (2014). New experiments on speaker diarization for unsupervised speaking style voice building for speech synthesis. "Procesamiento del Lenguaje Natural", v. 52 ; pp. 77-84. ISSN 1135-5948.

Descripción

Título: New experiments on speaker diarization for unsupervised speaking style voice building for speech synthesis
Autor/es:
  • Martínez González, Beatriz
  • Pardo Muñoz, José Manuel
  • Echeverry Correa, Julian David
  • Montero Martínez, Juan Manuel
Tipo de Documento: Artículo
Título de Revista/Publicación: Procesamiento del Lenguaje Natural
Fecha: Marzo 2014
Volumen: 52
Materias:
Palabras Clave Informales: Síntesis de voz expresiva, diarización de locutores, estilos de habla, síntesis de voz
Escuela: E.T.S.I. Telecomunicación (UPM)
Departamento: Ingeniería Electrónica
Licencias Creative Commons: Reconocimiento - Sin obra derivada - No comercial

Texto completo

[img]
Vista Previa
PDF (Document Portable Format) - Se necesita un visor de ficheros PDF, como GSview, Xpdf o Adobe Acrobat Reader
Descargar (977kB) | Vista Previa

Resumen

El uso universal de síntesis de voz en diferentes aplicaciones requeriría un desarrollo sencillo de las nuevas voces con poca intervención manual. Teniendo en cuenta la cantidad de datos multimedia disponibles en Internet y los medios de comunicación, un objetivo interesante es el desarrollo de herramientas y métodos para construir automáticamente las voces de estilo de varios de ellos. En un trabajo anterior se esbozó una metodología para la construcción de este tipo de herramientas, y se presentaron experimentos preliminares con una base de datos multiestilo. En este artículo investigamos más a fondo esta tarea y proponemos varias mejoras basadas en la selección del número apropiado de hablantes iniciales, el uso o no de filtros de reducción de ruido, el uso de la F0 y el uso de un algoritmo de detección de música. Hemos demostrado que el mejor sistema usando un algoritmo de detección de música disminuye el error de precisión 22,36% relativo para el conjunto de desarrollo y 39,64% relativo para el montaje de ensayo en comparación con el sistema base, sin degradar el factor de mérito. La precisión media para el conjunto de prueba es 90.62% desde 76.18% para los reportajes de 99,93% para los informes meteorológicos.

Proyectos asociados

TipoCódigoAcrónimoResponsableTítulo
Gobierno de EspañaTIN2011-28169-C05-03Sin especificarSin especificarSin especificar
Gobierno de EspañaDPI2010-21247-C02-02Sin especificarSin especificarSin especificar
FP7FP7-ICT-2011-7 287678SIMPLE4ALLUniversity of EdinburghSpeech synthesis that improves through adaptive learning
Comunidad de MadridS2009/TIC-1542Sin especificarSin especificarSin especificar

Más información

ID de Registro: 37410
Identificador DC: http://oa.upm.es/37410/
Identificador OAI: oai:oa.upm.es:37410
URL Oficial: http://journal.sepln.org/sepln/ojs/ojs/index.php/pln/article/view/4906
Depositado por: Memoria Investigacion
Depositado el: 09 Sep 2015 16:04
Ultima Modificación: 09 Sep 2015 16:04
  • Open Access
  • Open Access
  • Sherpa-Romeo
    Compruebe si la revista anglosajona en la que ha publicado un artículo permite también su publicación en abierto.
  • Dulcinea
    Compruebe si la revista española en la que ha publicado un artículo permite también su publicación en abierto.
  • Recolecta
  • e-ciencia
  • Observatorio I+D+i UPM
  • OpenCourseWare UPM