@unpublished{upm68234, author = {Eric Romero Andr{\'e}s}, address = {Madrid}, title = {Procesamiento de emociones por voz utilizando Machine y Deep Learning}, year = {2021}, month = {July}, keywords = {Clasificaci{\'o}n de emociones por medio de voz}, url = {https://oa.upm.es/68234/}, abstract = {En este proyecto se ha realizado una investigaci{\'o}n sobre distintas t{\'e}cnicas de Machine Learning y Deep Learning para la construcci{\'o}n de un clasificador de emociones basado en archivos de voz. Tras indagar en los fundamentos te{\'o}ricos de las distintas t{\'e}cnicas se opt{\'o} por la construcci{\'o}n de tres modelos. Usando t{\'e}cnicas de Deep Learning se construyeron dos redes neuronales convolucionales distintas, mientras que con t{\'e}cnicas de Machine Learning se implement{\'o} una m{\'a}quina de vector de soporte. Para poder llevar a cabo el entrenamiento de los modelos se desarroll{\'o} un servicio de adquisici{\'o}n de ficheros de audio con el que construir un dataset, ya que los datos necesarios para este prop{\'o}sito no son muy abundantes. Una vez construido el dataset, se realiz{\'o} un pre-tratamiento y procesamiento de los datos, aplicando la trasformada r{\'a}pida de Fourier y la escala Mel para obtener los espectrogramas de los audios. Estos espectrogramas fueron utilizados a continuaci{\'o}n para el entrenamiento de los modelos inteligentes. Utilizando los datos ya procesados se realizaron m{\'u}ltiples experimentos cambiando las distribuciones de datos para entrenamiento y testing. Una vez realizados estos experimentos con los modelos, se analiz{\'o} el rendimientos de los mismos y se compararon los resultados obtenidos, llegando a la conclusi{\'o}n de que todas las t{\'e}cnicas probadas podr{\'i}an ser {\'u}tiles para la resoluci{\'o}n del problema planteado. Abstract: In this project, different Machine and Deep learning techniques were investigated for the construction of an emotion classiffier based on voice files. After digging in the theoretical foundation of different techniques, we opted for the construction of three models. Using Deep Learning techniques, two different convolutional neural networks were built, while with Machine Learning techniques, a support vector machine was implemented. In order to train the models, an audio file acquisition service was developed for building a dataset, since the data necessary for this purpose is not very abundant. Once the dataset was built, the files were pre-treated and processed applying the fast Fourier transform and the Mel scale to obtain the spectrograms of the audios. These spectrograms were then used for the training of the intelligent models. Using the data already processed, multiple experiments were performed with different data distributions for training and testing. Once these experiments had been carried out, the performance of the models was analyzed and compared, concluding that all the techniques tested could be useful for solving the problem.} }