Full text
![]() |
PDF
- Users in campus UPM only
- Requires a PDF viewer, such as GSview, Xpdf or Adobe Acrobat Reader
Download (2MB) |
Romero Andrés, Eric (2021). Procesamiento de emociones por voz utilizando Machine y Deep Learning. Proyecto Fin de Carrera / Trabajo Fin de Grado, E.T.S.I. de Sistemas Informáticos (UPM), Madrid.
Title: | Procesamiento de emociones por voz utilizando Machine y Deep Learning |
---|---|
Author/s: |
|
Contributor/s: |
|
Item Type: | Final Project |
Degree: | Grado en Ingeniería del Software |
Date: | July 2021 |
Subjects: | |
Freetext Keywords: | Clasificación de emociones por medio de voz |
Faculty: | E.T.S.I. de Sistemas Informáticos (UPM) |
Department: | Sistemas Informáticos |
Creative Commons Licenses: | Recognition - No derivative works - Non commercial |
![]() |
PDF
- Users in campus UPM only
- Requires a PDF viewer, such as GSview, Xpdf or Adobe Acrobat Reader
Download (2MB) |
En este proyecto se ha realizado una investigación sobre distintas técnicas de Machine Learning y Deep Learning para la construcción de un clasificador de emociones basado en archivos de voz. Tras indagar en los fundamentos teóricos de las distintas técnicas se optó por la construcción de tres modelos. Usando técnicas de Deep Learning se construyeron dos redes neuronales convolucionales distintas, mientras que con técnicas de Machine Learning se implementó una máquina de vector de soporte. Para poder llevar a cabo el entrenamiento de los modelos se desarrolló un servicio de adquisición de ficheros de audio con el que construir un dataset, ya que los datos necesarios para este propósito no son muy abundantes. Una vez construido el dataset, se realizó un pre-tratamiento y procesamiento de los datos, aplicando la trasformada rápida de Fourier y la escala Mel para obtener los espectrogramas de los audios. Estos espectrogramas fueron utilizados a continuación para el entrenamiento de los modelos inteligentes. Utilizando los datos ya procesados se realizaron múltiples experimentos cambiando las distribuciones de datos para entrenamiento y testing. Una vez realizados estos experimentos con los modelos, se analizó el rendimientos de los mismos y se compararon los resultados obtenidos, llegando a la conclusión de que todas las técnicas probadas podrían ser útiles para la resolución del problema planteado.
Abstract:
In this project, different Machine and Deep learning techniques were investigated for the construction of an emotion classiffier based on voice files. After digging in the theoretical foundation of different techniques, we opted for the construction of three models. Using Deep Learning techniques, two different convolutional neural networks were built, while with Machine Learning techniques, a support vector machine was implemented. In order to train the models, an audio file acquisition service was developed for building a dataset, since the data necessary for this purpose is not very abundant. Once the dataset was built, the files were pre-treated and processed applying the fast Fourier transform and the Mel scale to obtain the spectrograms of the audios. These spectrograms were then used for the training of the intelligent models. Using the data already processed, multiple experiments were performed with different data distributions for training and testing. Once these experiments had been carried out, the performance of the models was analyzed and compared, concluding that all the techniques tested could be useful for solving the problem.
Item ID: | 68234 |
---|---|
DC Identifier: | https://oa.upm.es/68234/ |
OAI Identifier: | oai:oa.upm.es:68234 |
Deposited by: | Biblioteca Universitaria Campus Sur |
Deposited on: | 19 Aug 2021 15:21 |
Last Modified: | 18 Nov 2022 11:12 |