Análisis de la voz y clasificación de emociones mediante técnicas de Deep Learning

Hernández Calabrés, Enrique (2020). Análisis de la voz y clasificación de emociones mediante técnicas de Deep Learning. Tesis (Master), E.T.S. de Ingenieros Informáticos (UPM).

Descripción

Título: Análisis de la voz y clasificación de emociones mediante técnicas de Deep Learning
Autor/es:
  • Hernández Calabrés, Enrique
Director/es:
Tipo de Documento: Tesis (Master)
Título del máster: Inteligencia Artificial
Fecha: Julio 2020
Materias:
ODS:
Escuela: E.T.S. de Ingenieros Informáticos (UPM)
Departamento: Inteligencia Artificial
Licencias Creative Commons: Reconocimiento - Sin obra derivada - No comercial

Texto completo

[thumbnail of TFM_ENRIQUE_HERNANDEZ_CALABRES.pdf]
Vista Previa
PDF (Portable Document Format) - Se necesita un visor de ficheros PDF, como GSview, Xpdf o Adobe Acrobat Reader
Descargar (1MB) | Vista Previa

Resumen

A lo largo de este trabajo se lleva a cabo una explicación de la propuesta realizada para resolver el problema de la clasificación de emociones a través de la voz mediante técnicas de deep learning. Este trabajo se ha realizado tomando como base las principales técnicas existentes dentro del estado del arte en este ámbito, y realizando la propuesta de dos modelos diferentes capaces de resolverlo. En concreto, estos modelos resuelven el problema a partir de la misma representación de información, el espectrograma de mel, pero cuentan con diferentes arquitecturas. En primer lugar, se propone un modelo convolucional basado en la arquitectura LeNet-5, capaz de obtener un 90,02 % de precisión en entrenamiento y un 68,75 % de precisión en test. En segundo lugar, se propone un modelo híbrido que emplea en una parte Time-Distributed CNN junto con una RNN en la otra, y que es capaz de mejorar el modelo anterior, con una precisión del 96,25 % en entrenamiento y 73,98 % en validación. Además, se comparan estos resultados con los obtenidos en algunos de los trabajos del estado del arte y se comenta la aparición del overfitting y las medidas de data augmentation seguidas para tratar de solucionarlo.---ABSTRACT---Throughout this work, two different ways of solving the speech emotion recognition problem through the voice by deep learning techniques are proposed. This work has been carried out taking as a basis the main existing techniques within the state of the art in this field and making the proposal of two different models capable of solving it. Specifically, these models solve the problem from the same representation of information, the mel spectrogram, but they have different architectures. Firstly, a convolutional model based on the LeNet-5 architecture is proposed, capable of obtaining 90.02 % accuracy in training and 68.75 % accuracy in testing. Secondly, a hybrid model is proposed, which uses a Time-Distributed CNN on one hand and an RNN on the other, and which is capable of improving the results of the previous model, with 96.25 % accuracy in training and 73.98 % in validation. In addition, these results are compared with those obtained in some of the state-of-the-art works. Also, the appearance of overfitting and the different data augmentation techniques followed to try to solve it are commented on.

Más información

ID de Registro: 63715
Identificador DC: https://oa.upm.es/63715/
Identificador OAI: oai:oa.upm.es:63715
Depositado por: Biblioteca Facultad de Informatica
Depositado el: 10 Sep 2020 07:57
Ultima Modificación: 10 Sep 2020 07:57