Neutralización del acento local de un hispanohablante

González Martín, Rubén (2020). Neutralización del acento local de un hispanohablante. Thesis (Master thesis), E.T.S.I. Industriales (UPM).

Description

Title: Neutralización del acento local de un hispanohablante
Author/s:
  • González Martín, Rubén
Contributor/s:
  • Domínguez Cabrerizo, Sergio
Item Type: Thesis (Master thesis)
Masters title: Automática y Robótica
Date: February 2020
Subjects:
Faculty: E.T.S.I. Industriales (UPM)
Department: Automática, Ingeniería Eléctrica y Electrónica e Informática Industrial
Creative Commons Licenses: Recognition - No derivative works - Non commercial

Full text

[img]
Preview
PDF - Requires a PDF viewer, such as GSview, Xpdf or Adobe Acrobat Reader
Download (5MB) | Preview

Abstract

El acento de un interlocutor es un factor importante a tener en cuenta en las conversaciones destinadas a ofrecer un servicio a un cliente. En muchas ocasiones, la diferencia de acento entre el cliente y la persona que le atiende puede causar una sensación de distanciamiento, malentendidos causados por la diferencia de pronunciación y, en el peor de los casos, discriminación simplemente por razones de acento. Atendiendo a este hecho, será deseable desarrollar una tecnología que consiguiera cambiar el acento de una persona en tiempo real y con un retardo mínimo que permitiera una conversación fluida. Este es el problema que ha inspirado el presente Trabajo de Fin de Máster. El objetivo de este proyecto es indagar en una posible solución al problema y tratar de lograr un resultado aceptable intentando, al menos, la transformación de un acento en otro, concretamente entre dos personas hispanohablantes. Para ello se utilizarán redes neuronales convolucionales, en una aplicación de Deep Learning. El Deep Learning es una técnica muy utilizada en este tipo de situaciones, y existen varias referencias de investigadores que han afrontado este problema. En la mayoría de los casos, sin embargo, se utiliza un sintetizador de voz artificial para la fase final, es decir, la de la obtención de un audio con el acento final que se desea escuchar. En el presente trabajo el objetivo es mantener la voz y el timbre de la persona original cambiando el acento, por lo que no se utilizarán sintetizadores artificiales en la salida, si bien los cuales han conseguido en los últimos años una naturalidad comparable muchas veces a la de una persona real. Uno de los principales retos para entrenar la red neuronal es la obtención de datos de entrenamiento. Para hispanohablantes no se ha encontrado una base de datos con audios que correspondan a las mismas frases pronunciadas por personas diferentes, por lo que se ha elegido elaborar una base de datos propia. Para ello se ha utilizado un audiolibro interpretado por dos personas con acentos distintos (mexicano y castellano) y se han recortado y alineado manualmente frases idénticas del libro para generar un conjunto de datos de entrenamiento que permita a la red neuronal diferenciar entre un acento y otro, y transformarlo. En este proyecto se ha experimentado con espectrogramas y con coeficientes cepstrales de Mel (MFCCs), obteniéndose los mejores resultados con los espectrogramas y concretamente con una red neuronal convolucional con estructura de autoencoder. El procedimiento seguido para el cambio del acento ha sido, en primer lugar, calcular el espectrograma de cada frase de entrenamiento y, en segundo lugar, realizar una regresión mediante redes neuronales tratando los espectrogramas como imágenes y convirtiendo el espectrograma de entrada en el de salida. Por último, se transforma el espectrograma de salida en un archivo de audio para poder escuchar el resultado. Los resultados obtenidos son prometedores, especialmente teniendo en cuenta el reducido número de datos de entrenamiento que ha sido posible generar. En concreto, se ha conseguido transformar los datos de entrenamiento y de validación de forma que la salida sea inteligible, si bien presenta cierta distorsión. Aun así, el reducido número de datos de entrenamiento disponible implica que este resultado es difícil de generalizar a más hispanohablantes, para lo cual se requerirá un conjunto de datos mucho mayor y con un mayor abanico de voces que permitiera a la red concentrarse únicamente en la transformación del acento.

More information

Item ID: 58026
DC Identifier: http://oa.upm.es/58026/
OAI Identifier: oai:oa.upm.es:58026
Deposited by: Biblioteca ETSI Industriales
Deposited on: 06 Apr 2020 09:03
Last Modified: 14 May 2020 22:30
  • Logo InvestigaM (UPM)
  • Logo GEOUP4
  • Logo Open Access
  • Open Access
  • Logo Sherpa/Romeo
    Check whether the anglo-saxon journal in which you have published an article allows you to also publish it under open access.
  • Logo Dulcinea
    Check whether the spanish journal in which you have published an article allows you to also publish it under open access.
  • Logo de Recolecta
  • Logo del Observatorio I+D+i UPM
  • Logo de OpenCourseWare UPM