TY - UNPB A1 - Sastre Gallardo, Alberto CY - Madrid TI - Procesamiento de emociones por voz utilizando Machine y Deep Learning KW - Clasificación de emociones por medio de voz UR - https://oa.upm.es/64331/ ID - upm64331 N2 - En este proyecto se investigaron diferentes técnicas de Machine Learning y Deep Learning para la construcción de un clasificador de emociones en base a archivos de audio. Se explica el funcionamiento teórico de los clasificadores de emociones construidos. Para Deep Learning se construyó un red neuronal convolucional mientras que para Machine Learning se implementó una máquina de vector de soporte. Para poder realizar el entrenamiento de ambos modelos se desarrolló un servicio de adquisición de ficheros de audio con el objetivo de construir un dataset propio, ya que los datos en este formato no son muy abundantes. Una vez construido el dataset, se realizó un pre-tratamiento y procesamiento de los datos, aplicando la trasformada rápida de Fourier y la escala Mel se obtuvo el espectrograma de los audios, que finalmente fueron utilizados para el entrenamiento de los modelos inteligentes. Una vez realizado el entrenamiento de ambos modelos se analizaron sus rendimientos en relación a un mismo conjunto de datos y se compararon sus resultados, llegando a la conclusión de que ambas metodologías podrán ser útiles para la resolución del problema. Abstract: In this project, different Machine Learning and Deep Learning techniques for the construction of an emotion classifier based on audio files were investigated. The theoretical operation of the constructed emotion classifiers is explained. For Deep Learning a convolutional neural network was built while for Machine Learning a support vector machine was implemented. In order to train both models, an audio file acquisition service was developed with the aim of building an own dataset, since the data in this format is not very abundant. Once the dataset was built, a pre-treatment and data processing was performed, applying the fast Fourier transform and the Mel scale, the audio spectrogram was obtained, which was finally used for the training of intelligent models. Once the training of both models was carried out, their performances in relation to the same dataset were analyzed and their results were compared, concluding that both methodologies could be useful for solving the problem. Y1 - 2020/07// AV - restricted ER -