Análisis de la voz y clasificación de emociones mediante técnicas de Deep Learning

Hernández Calabrés, Enrique (2020). Análisis de la voz y clasificación de emociones mediante técnicas de Deep Learning. Thesis (Master thesis), E.T.S. de Ingenieros Informáticos (UPM).

Description

Title: Análisis de la voz y clasificación de emociones mediante técnicas de Deep Learning
Author/s:
  • Hernández Calabrés, Enrique
Contributor/s:
  • Lope Asiaín, Javier de
Item Type: Thesis (Master thesis)
Masters title: Inteligencia Artificial
Date: July 2020
Subjects:
Faculty: E.T.S. de Ingenieros Informáticos (UPM)
Department: Inteligencia Artificial
Creative Commons Licenses: Recognition - No derivative works - Non commercial

Full text

[img]
Preview
PDF - Requires a PDF viewer, such as GSview, Xpdf or Adobe Acrobat Reader
Download (1MB) | Preview

Abstract

A lo largo de este trabajo se lleva a cabo una explicación de la propuesta realizada para resolver el problema de la clasificación de emociones a través de la voz mediante técnicas de deep learning. Este trabajo se ha realizado tomando como base las principales técnicas existentes dentro del estado del arte en este ámbito, y realizando la propuesta de dos modelos diferentes capaces de resolverlo. En concreto, estos modelos resuelven el problema a partir de la misma representación de información, el espectrograma de mel, pero cuentan con diferentes arquitecturas. En primer lugar, se propone un modelo convolucional basado en la arquitectura LeNet-5, capaz de obtener un 90,02 % de precisión en entrenamiento y un 68,75 % de precisión en test. En segundo lugar, se propone un modelo híbrido que emplea en una parte Time-Distributed CNN junto con una RNN en la otra, y que es capaz de mejorar el modelo anterior, con una precisión del 96,25 % en entrenamiento y 73,98 % en validación. Además, se comparan estos resultados con los obtenidos en algunos de los trabajos del estado del arte y se comenta la aparición del overfitting y las medidas de data augmentation seguidas para tratar de solucionarlo.---ABSTRACT---Throughout this work, two different ways of solving the speech emotion recognition problem through the voice by deep learning techniques are proposed. This work has been carried out taking as a basis the main existing techniques within the state of the art in this field and making the proposal of two different models capable of solving it. Specifically, these models solve the problem from the same representation of information, the mel spectrogram, but they have different architectures. Firstly, a convolutional model based on the LeNet-5 architecture is proposed, capable of obtaining 90.02 % accuracy in training and 68.75 % accuracy in testing. Secondly, a hybrid model is proposed, which uses a Time-Distributed CNN on one hand and an RNN on the other, and which is capable of improving the results of the previous model, with 96.25 % accuracy in training and 73.98 % in validation. In addition, these results are compared with those obtained in some of the state-of-the-art works. Also, the appearance of overfitting and the different data augmentation techniques followed to try to solve it are commented on.

More information

Item ID: 63715
DC Identifier: http://oa.upm.es/63715/
OAI Identifier: oai:oa.upm.es:63715
Deposited by: Biblioteca Facultad de Informatica
Deposited on: 10 Sep 2020 07:57
Last Modified: 10 Sep 2020 07:57
  • Logo InvestigaM (UPM)
  • Logo GEOUP4
  • Logo Open Access
  • Open Access
  • Logo Sherpa/Romeo
    Check whether the anglo-saxon journal in which you have published an article allows you to also publish it under open access.
  • Logo Dulcinea
    Check whether the spanish journal in which you have published an article allows you to also publish it under open access.
  • Logo de Recolecta
  • Logo del Observatorio I+D+i UPM
  • Logo de OpenCourseWare UPM