Procesamiento de emociones por voz utilizando Machine y Deep Learning

Sastre Gallardo, Alberto (2020). Procesamiento de emociones por voz utilizando Machine y Deep Learning. Proyecto Fin de Carrera / Trabajo Fin de Grado, E.T.S.I. de Sistemas Informáticos (UPM), Madrid.

Description

Title: Procesamiento de emociones por voz utilizando Machine y Deep Learning
Author/s:
  • Sastre Gallardo, Alberto
Contributor/s:
  • Arroyo Montoro, Fernando
  • Gómez Canaval, Sandra
Item Type: Final Project
Degree: Grado en Ingeniería del Software
Date: July 2020
Subjects:
Freetext Keywords: Clasificación de emociones por medio de voz
Faculty: E.T.S.I. de Sistemas Informáticos (UPM)
Department: Sistemas Informáticos
Creative Commons Licenses: Recognition - No derivative works - Non commercial

Full text

[img] PDF - Users in campus UPM only - Requires a PDF viewer, such as GSview, Xpdf or Adobe Acrobat Reader
Download (1MB)

Abstract

En este proyecto se investigaron diferentes técnicas de Machine Learning y Deep Learning para la construcción de un clasificador de emociones en base a archivos de audio. Se explica el funcionamiento teórico de los clasificadores de emociones construidos. Para Deep Learning se construyó un red neuronal convolucional mientras que para Machine Learning se implementó una máquina de vector de soporte. Para poder realizar el entrenamiento de ambos modelos se desarrolló un servicio de adquisición de ficheros de audio con el objetivo de construir un dataset propio, ya que los datos en este formato no son muy abundantes. Una vez construido el dataset, se realizó un pre-tratamiento y procesamiento de los datos, aplicando la trasformada rápida de Fourier y la escala Mel se obtuvo el espectrograma de los audios, que finalmente fueron utilizados para el entrenamiento de los modelos inteligentes. Una vez realizado el entrenamiento de ambos modelos se analizaron sus rendimientos en relación a un mismo conjunto de datos y se compararon sus resultados, llegando a la conclusión de que ambas metodologías podrán ser útiles para la resolución del problema. Abstract: In this project, different Machine Learning and Deep Learning techniques for the construction of an emotion classifier based on audio files were investigated. The theoretical operation of the constructed emotion classifiers is explained. For Deep Learning a convolutional neural network was built while for Machine Learning a support vector machine was implemented. In order to train both models, an audio file acquisition service was developed with the aim of building an own dataset, since the data in this format is not very abundant. Once the dataset was built, a pre-treatment and data processing was performed, applying the fast Fourier transform and the Mel scale, the audio spectrogram was obtained, which was finally used for the training of intelligent models. Once the training of both models was carried out, their performances in relation to the same dataset were analyzed and their results were compared, concluding that both methodologies could be useful for solving the problem.

More information

Item ID: 64331
DC Identifier: http://oa.upm.es/64331/
OAI Identifier: oai:oa.upm.es:64331
Deposited by: Biblioteca Universitaria Campus Sur
Deposited on: 05 Oct 2020 08:39
Last Modified: 05 Oct 2020 08:39
  • Logo InvestigaM (UPM)
  • Logo GEOUP4
  • Logo Open Access
  • Open Access
  • Logo Sherpa/Romeo
    Check whether the anglo-saxon journal in which you have published an article allows you to also publish it under open access.
  • Logo Dulcinea
    Check whether the spanish journal in which you have published an article allows you to also publish it under open access.
  • Logo de Recolecta
  • Logo del Observatorio I+D+i UPM
  • Logo de OpenCourseWare UPM