New experiments on speaker diarization for unsupervised speaking style voice building for speech synthesis

Martínez González, Beatriz and Pardo Muñoz, José Manuel and Echeverry Correa, Julian David and Montero Martínez, Juan Manuel (2014). New experiments on speaker diarization for unsupervised speaking style voice building for speech synthesis. "Procesamiento del Lenguaje Natural", v. 52 ; pp. 77-84. ISSN 1135-5948.

Description

Title: New experiments on speaker diarization for unsupervised speaking style voice building for speech synthesis
Author/s:
  • Martínez González, Beatriz
  • Pardo Muñoz, José Manuel
  • Echeverry Correa, Julian David
  • Montero Martínez, Juan Manuel
Item Type: Article
Título de Revista/Publicación: Procesamiento del Lenguaje Natural
Date: March 2014
ISSN: 1135-5948
Volume: 52
Subjects:
Freetext Keywords: Síntesis de voz expresiva, diarización de locutores, estilos de habla, síntesis de voz
Faculty: E.T.S.I. Telecomunicación (UPM)
Department: Ingeniería Electrónica
Creative Commons Licenses: Recognition - No derivative works - Non commercial

Full text

[img]
Preview
PDF - Requires a PDF viewer, such as GSview, Xpdf or Adobe Acrobat Reader
Download (977kB) | Preview

Abstract

El uso universal de síntesis de voz en diferentes aplicaciones requeriría un desarrollo sencillo de las nuevas voces con poca intervención manual. Teniendo en cuenta la cantidad de datos multimedia disponibles en Internet y los medios de comunicación, un objetivo interesante es el desarrollo de herramientas y métodos para construir automáticamente las voces de estilo de varios de ellos. En un trabajo anterior se esbozó una metodología para la construcción de este tipo de herramientas, y se presentaron experimentos preliminares con una base de datos multiestilo. En este artículo investigamos más a fondo esta tarea y proponemos varias mejoras basadas en la selección del número apropiado de hablantes iniciales, el uso o no de filtros de reducción de ruido, el uso de la F0 y el uso de un algoritmo de detección de música. Hemos demostrado que el mejor sistema usando un algoritmo de detección de música disminuye el error de precisión 22,36% relativo para el conjunto de desarrollo y 39,64% relativo para el montaje de ensayo en comparación con el sistema base, sin degradar el factor de mérito. La precisión media para el conjunto de prueba es 90.62% desde 76.18% para los reportajes de 99,93% para los informes meteorológicos.

Funding Projects

TypeCodeAcronymLeaderTitle
Government of SpainTIN2011-28169-C05-03UnspecifiedUnspecifiedUnspecified
Government of SpainDPI2010-21247-C02-02UnspecifiedUnspecifiedUnspecified
FP7FP7-ICT-2011-7 287678SIMPLE4ALLUniversity of EdinburghSpeech synthesis that improves through adaptive learning
Madrid Regional GovernmentS2009/TIC-1542UnspecifiedUnspecifiedUnspecified

More information

Item ID: 37410
DC Identifier: http://oa.upm.es/37410/
OAI Identifier: oai:oa.upm.es:37410
Official URL: http://journal.sepln.org/sepln/ojs/ojs/index.php/pln/article/view/4906
Deposited by: Memoria Investigacion
Deposited on: 09 Sep 2015 16:04
Last Modified: 09 Sep 2015 16:04
  • Logo InvestigaM (UPM)
  • Logo GEOUP4
  • Logo Open Access
  • Open Access
  • Logo Sherpa/Romeo
    Check whether the anglo-saxon journal in which you have published an article allows you to also publish it under open access.
  • Logo Dulcinea
    Check whether the spanish journal in which you have published an article allows you to also publish it under open access.
  • Logo de Recolecta
  • Logo del Observatorio I+D+i UPM
  • Logo de OpenCourseWare UPM