Reconocimiento de emociones a partir de voz mediante Shallow ANN

Meitín Moreno, Javier (2024). Reconocimiento de emociones a partir de voz mediante Shallow ANN. Tesis (Master), E.T.S. de Ingenieros Informáticos (UPM).

Descripción

Título: Reconocimiento de emociones a partir de voz mediante Shallow ANN
Autor/es:
  • Meitín Moreno, Javier
Director/es:
Tipo de Documento: Tesis (Master)
Título del máster: Inteligencia Artificial
Fecha: Julio 2024
Materias:
ODS:
Escuela: E.T.S. de Ingenieros Informáticos (UPM)
Departamento: Inteligencia Artificial
Licencias Creative Commons: Reconocimiento - Sin obra derivada - No comercial

Texto completo

[thumbnail of TFM_JAVIER_MEITIN_MORENO.pdf] PDF (Portable Document Format) - Se necesita un visor de ficheros PDF, como GSview, Xpdf o Adobe Acrobat Reader
Descargar (737kB)

Resumen

En este trabajo se propone el diseño y desarrollo de una red neuronal de una sola capa oculta capaz de reconocer emociones a partir de la voz. El clasificador es entrenado y evaluado con espectogramas mel de dimensiones 90x98 generados a partir de los archivos de audio de la base de datos pública RAVDESS. Dicho conjunto esta formado por 8 emociones (neutralidad, calma, felicidad, tristeza, enojo, miedo, disgusto y sorpresa). La red neuronal es capaz de clasificarlos con un 68,81% de precisión sin la necesidad utilizar otros algoritmos complementarios como aumento de datos. Además, se ha comprobado que seleccionando los 4000 pixels más importantes con Gradient Boosting, la precisión del modelo puede mejorar al 71,09%. Estos resultados, aunque no superiores a los de otros trabajos anteriores similares, permiten medir y ratificar el alcance y potencial de este tipo de redes neuronales en el ámbito del aprendizaje automático.

ABSTRACT

In this work, the design and development of a single hidden layer neural network capable of recognizing emotions from speech is proposed. The classifier is trained and evaluated using Mel spectrograms of dimensions 90x98 generated from audio files from the public RAVDESS database. This dataset consists of 8 emotions (neutral, calm, happy, sad, angry, fearful, disgusted, and surprised). The neural network is able to classify them with a precision of 68,81% without the need to use other complementary algorithms such as data augmentation. Additionally, it has been found that by selecting the 4000 most important pixels with Gradient Boosting, the model’s precision can improve up to 71,09%. These results, although not higher than those of some similar previous works, allow for measure and confirmation of the scope and potential of this type of neural network in the field of machine learning.

Más información

ID de Registro: 82954
Identificador DC: https://oa.upm.es/82954/
Identificador OAI: oai:oa.upm.es:82954
Depositado por: Biblioteca Facultad de Informatica
Depositado el: 25 Jul 2024 08:44
Ultima Modificación: 25 Jul 2024 08:44