title: Procesamiento de emociones por voz utilizando Machine y Deep Learning creator: Romero Andrés, Eric contributor: Arroyo Montoro, Fernando contributor: Gómez Canaval, Sandra subject: Computer Science subject: Psychology description: En este proyecto se ha realizado una investigación sobre distintas técnicas de Machine Learning y Deep Learning para la construcción de un clasificador de emociones basado en archivos de voz. Tras indagar en los fundamentos teóricos de las distintas técnicas se optó por la construcción de tres modelos. Usando técnicas de Deep Learning se construyeron dos redes neuronales convolucionales distintas, mientras que con técnicas de Machine Learning se implementó una máquina de vector de soporte. Para poder llevar a cabo el entrenamiento de los modelos se desarrolló un servicio de adquisición de ficheros de audio con el que construir un dataset, ya que los datos necesarios para este propósito no son muy abundantes. Una vez construido el dataset, se realizó un pre-tratamiento y procesamiento de los datos, aplicando la trasformada rápida de Fourier y la escala Mel para obtener los espectrogramas de los audios. Estos espectrogramas fueron utilizados a continuación para el entrenamiento de los modelos inteligentes. Utilizando los datos ya procesados se realizaron múltiples experimentos cambiando las distribuciones de datos para entrenamiento y testing. Una vez realizados estos experimentos con los modelos, se analizó el rendimientos de los mismos y se compararon los resultados obtenidos, llegando a la conclusión de que todas las técnicas probadas podrían ser útiles para la resolución del problema planteado. Abstract: In this project, different Machine and Deep learning techniques were investigated for the construction of an emotion classiffier based on voice files. After digging in the theoretical foundation of different techniques, we opted for the construction of three models. Using Deep Learning techniques, two different convolutional neural networks were built, while with Machine Learning techniques, a support vector machine was implemented. In order to train the models, an audio file acquisition service was developed for building a dataset, since the data necessary for this purpose is not very abundant. Once the dataset was built, the files were pre-treated and processed applying the fast Fourier transform and the Mel scale to obtain the spectrograms of the audios. These spectrograms were then used for the training of the intelligent models. Using the data already processed, multiple experiments were performed with different data distributions for training and testing. Once these experiments had been carried out, the performance of the models was analyzed and compared, concluding that all the techniques tested could be useful for solving the problem. publisher: E.T.S.I de Sistemas Informáticos (UPM) rights: https://creativecommons.org/licenses/by-nc-nd/3.0/es/ date: 2021-07 type: info:eu-repo/semantics/bachelorThesis type: Final Project type: PeerReviewed format: application/pdf language: spa rights: info:eu-repo/semantics/restrictedAccess identifier: https://oa.upm.es/68234/