Procesamiento de emociones por voz utilizando Machine y Deep Learning

Romero Andrés, Eric (2021). Procesamiento de emociones por voz utilizando Machine y Deep Learning. Proyecto Fin de Carrera / Trabajo Fin de Grado, E.T.S.I. de Sistemas Informáticos (UPM), Madrid.

Description

Title: Procesamiento de emociones por voz utilizando Machine y Deep Learning
Author/s:
  • Romero Andrés, Eric
Contributor/s:
  • Arroyo Montoro, Fernando
  • Gómez Canaval, Sandra
Item Type: Final Project
Degree: Grado en Ingeniería del Software
Date: July 2021
Subjects:
Freetext Keywords: Clasificación de emociones por medio de voz
Faculty: E.T.S.I. de Sistemas Informáticos (UPM)
Department: Sistemas Informáticos
Creative Commons Licenses: Recognition - No derivative works - Non commercial

Full text

[img] PDF - Users in campus UPM only - Requires a PDF viewer, such as GSview, Xpdf or Adobe Acrobat Reader
Download (2MB)

Abstract

En este proyecto se ha realizado una investigación sobre distintas técnicas de Machine Learning y Deep Learning para la construcción de un clasificador de emociones basado en archivos de voz. Tras indagar en los fundamentos teóricos de las distintas técnicas se optó por la construcción de tres modelos. Usando técnicas de Deep Learning se construyeron dos redes neuronales convolucionales distintas, mientras que con técnicas de Machine Learning se implementó una máquina de vector de soporte. Para poder llevar a cabo el entrenamiento de los modelos se desarrolló un servicio de adquisición de ficheros de audio con el que construir un dataset, ya que los datos necesarios para este propósito no son muy abundantes. Una vez construido el dataset, se realizó un pre-tratamiento y procesamiento de los datos, aplicando la trasformada rápida de Fourier y la escala Mel para obtener los espectrogramas de los audios. Estos espectrogramas fueron utilizados a continuación para el entrenamiento de los modelos inteligentes. Utilizando los datos ya procesados se realizaron múltiples experimentos cambiando las distribuciones de datos para entrenamiento y testing. Una vez realizados estos experimentos con los modelos, se analizó el rendimientos de los mismos y se compararon los resultados obtenidos, llegando a la conclusión de que todas las técnicas probadas podrían ser útiles para la resolución del problema planteado. Abstract: In this project, different Machine and Deep learning techniques were investigated for the construction of an emotion classiffier based on voice files. After digging in the theoretical foundation of different techniques, we opted for the construction of three models. Using Deep Learning techniques, two different convolutional neural networks were built, while with Machine Learning techniques, a support vector machine was implemented. In order to train the models, an audio file acquisition service was developed for building a dataset, since the data necessary for this purpose is not very abundant. Once the dataset was built, the files were pre-treated and processed applying the fast Fourier transform and the Mel scale to obtain the spectrograms of the audios. These spectrograms were then used for the training of the intelligent models. Using the data already processed, multiple experiments were performed with different data distributions for training and testing. Once these experiments had been carried out, the performance of the models was analyzed and compared, concluding that all the techniques tested could be useful for solving the problem.

More information

Item ID: 68234
DC Identifier: https://oa.upm.es/68234/
OAI Identifier: oai:oa.upm.es:68234
Deposited by: Biblioteca Universitaria Campus Sur
Deposited on: 19 Aug 2021 15:21
Last Modified: 19 Aug 2021 15:21
  • Logo InvestigaM (UPM)
  • Logo GEOUP4
  • Logo Open Access
  • Open Access
  • Logo Sherpa/Romeo
    Check whether the anglo-saxon journal in which you have published an article allows you to also publish it under open access.
  • Logo Dulcinea
    Check whether the spanish journal in which you have published an article allows you to also publish it under open access.
  • Logo de Recolecta
  • Logo del Observatorio I+D+i UPM
  • Logo de OpenCourseWare UPM