Síntesis multilocutor aplicando técnicas de conversión de hablante

Gutiérrez Arriola, Juana María

(2008). Síntesis multilocutor aplicando técnicas de conversión de hablante. Tesis (Doctoral), E.T.S.I. Telecomunicación (UPM). https://doi.org/10.20868/UPM.thesis.1675.

Descripción

Título:	Síntesis multilocutor aplicando técnicas de conversión de hablante
Autor/es:	Gutiérrez Arriola, Juana María https://orcid.org/0000-0003-0888-6582
Director/es:	Pardo Muñoz, José Manuel https://orcid.org/0000-0002-1009-590X
Tipo de Documento:	Tesis (Doctoral)
Fecha de lectura:	2008
Materias:	Telecomunicaciones Informática
ODS:	09. Industria, innovación e infraestructura
Escuela:	E.T.S.I. Telecomunicación (UPM)
Departamento:	Ingeniería Electrónica
Licencias Creative Commons:	Reconocimiento - Sin obra derivada - No comercial

Texto completo

[thumbnail of JUANA_MARIA_GUTIERREZ_ARRIOLA.pdf]

Vista Previa

PDF (Portable Document Format) - Se necesita un visor de ficheros PDF, como GSview, Xpdf o Adobe Acrobat Reader
Descargar (2MB) | Vista Previa

Resumen

Las técnicas de conversión de locutor transforman la señal de voz pronunciada por una persona para que sea percibida como si la hubiera dicho otra persona. Se denomina locutor fuente al hablante inicial y locutor deseado a la identidad que se pretende obtener. Tradicionalmente la transformación se aplica al habla natural o al habla sintética como un procesado posterior a la síntesis. El objetivo de esta tesis es estudiar las técnicas propuestas hasta el momento e incorporarlas en un sistema de síntesis de voz. Por ello es necesario conocer a fondo el método de síntesis a utilizar y estudiar y desarrollar la técnica que mejor se adapte a sus características. Se han estudiado dos propuestas de sintetizador: 1. Sintetizador de formantes que concatena unidades parametrizadas. En este caso los parámetros que se utilizan para la síntesis son los cinco primeros formantes y cuatro parámetros de fuente glotal del modelo LF (Liljencrants & Fant). 2. El segundo de los sintetizadores es un sintetizador LP (Linear Prediction) que concatena unidades codificadas. El modelo de fuente utilizado es un polinomio de sexto orden para modelar la integral del residuo y un filtro posterior para añadir riqueza frecuencial a la señal. En ambos casos se han desarrollado o modificado las herramientas necesarias para realizar el análisis de 455 unidades correspondientes a cuatro locutores: dos hombres y dos mujeres. Las técnicas de conversión utilizadas son: 1. Para el sintetizador por formantes se aplica una transformación lineal para convertir los cinco primeros formantes y copiamos los parámetros del modelo LF del locutor deseado. 2. En el caso del sintetizador LP la técnica de transformación empleada es la del mapeado de codebooks para acercar lo máximo los coeficientes LPC (Linear Prediction Coefficients) del locutor base a los del locutor deseado y en este caso se mantiene la fuente del locutor base. Se ha estudiado la relevancia de los parámetros utilizados en la síntesis por formantes en cuanto a la identidad del locutor se refiere. La conclusión de dicho estudio nos indica que la información sobre la identidad del locutor está repartida entre todos los parámetros analizados siendo los más relevantes la frecuencia fundamental, F0, y las frecuencias formánticas. Se ha modificado la fuente del sintetizador LP para favorecer la transformación del locutor. Se ha comprobado que el modelo de fuente propuesto mantiene una calidad equivalente al sintetizador que utiliza las unidades codificadas CELP (Coded Excited Linear Prediction). Se han realizado pruebas objetivas y subjetivas para evaluar la capacidad de transformar el hablante y la calidad de la voz sintetizada. Se demuestra que las técnicas empleadas son eficientes a la hora de cambiar la identidad del locutor pero también se observa una degradación de la calidad de la voz. ABSTRACT Voice conversion technologies transform the voice uttered by a person (source speaker) in order that it is perceived as if another person had said it (target speaker). Traditionally the transformation is applied to the natural speech or to the synthetic speech as a post-processing block for a synthesizer. The aim of this thesis is to study the technologies in the state of the art and to incorporate them in a system of synthesis of voice. To achieve this goal it is necessary to know thoroughly the method of synthesis to use, study and develop the technology that better adapts to its characteristics. Two types of synthesizer have been studied: 1. Formant synthesizer that concatenates parametrized units. In this case the parameters that are used for synthesis are the first five formants and four glottal source parameters of the model LF(Liljencrants and Fant). 2. The second one is a LP(Linear Prediction) synthesizer that concatenates codified units. The source model is a polynomial of sixth order to shape the integral of the LP residue and a later filter to enhace high frequencies. In both cases tools have been developed or modified to analize 455 units corresponding to four speakers: two men and two women. The voice conversion techniques develop in each synthesizer are: 1. A linear transformation is applied to convert the formants and we copy the LF model parameters of the target speaker. 2. In case of the LP synthesizer the technology used for transformation is codebook mapping. The relevancy of the parameters used in the formant synthesizer has been studied as far as speaker identity is concerned. The conclusion of the above mentioned study indicates that the information about the speaker identity is distributed among all the analyzed parameters being the most relevant the fundamental frequency, F0, and the formant frequencies. The source model of the LP synthesizer has been modified to favor speaker transformation. There has been verified that the proposed source model supports a equivalent quality to the synthesizer that uses codified units CELP (Coded Excited Linear Prediction). Objective and subjective tests have been carried out to evaluate the ability to transform the speaker and the quality of the synthesized voice. There is demonstrated that the used technologies are efficient at the moment of changing the identity of the speaker but it is also observed a degradation of the quality of the synthetic voice.

Más información

ID de Registro:	1675
Identificador DC:	https://oa.upm.es/1675/
Identificador OAI:	oai:oa.upm.es:1675
Identificador DOI:	10.20868/UPM.thesis.1675
Depositado por:	Archivo Digital UPM
Depositado el:	18 Jun 2009
Ultima Modificación:	10 Oct 2022 12:24

Estadísticas

Exportar cita

Editar (sólo personal del Archivo)

En esta página

Menú principal

Buscar

Síntesis multilocutor aplicando técnicas de conversión de hablante

Cita

Descripción

Texto completo

Resumen

Más información

Acciones

Metrics

Altmetrics probando

Dimensions

Documentos

El repositorio

Agrupados por ...

Datos Investigación

Financiadores

Especiales

En otros formatos

Redes sociales

Información adicional