Texto completo
Vista Previa |
PDF (Portable Document Format)
- Se necesita un visor de ficheros PDF, como GSview, Xpdf o Adobe Acrobat Reader
Descargar (1MB) | Vista Previa |
| Título: | Análisis de la voz y clasificación de emociones mediante técnicas de Deep Learning |
|---|---|
| Autor/es: |
|
| Director/es: |
|
| Tipo de Documento: | Tesis (Master) |
| Título del máster: | Inteligencia Artificial |
| Fecha: | Julio 2020 |
| Materias: | |
| ODS: | |
| Escuela: | E.T.S. de Ingenieros Informáticos (UPM) |
| Departamento: | Inteligencia Artificial |
| Licencias Creative Commons: | Reconocimiento - Sin obra derivada - No comercial |
Vista Previa |
PDF (Portable Document Format)
- Se necesita un visor de ficheros PDF, como GSview, Xpdf o Adobe Acrobat Reader
Descargar (1MB) | Vista Previa |
A lo largo de este trabajo se lleva a cabo una explicación de la propuesta realizada para resolver el problema de la clasificación de emociones a través de la voz mediante técnicas de deep learning. Este trabajo se ha realizado tomando como base las principales técnicas existentes dentro del estado del arte en este ámbito, y realizando la propuesta de dos modelos diferentes capaces de resolverlo. En concreto, estos modelos resuelven el problema a partir de la misma representación de información, el espectrograma de mel, pero cuentan con diferentes arquitecturas. En primer lugar, se propone un modelo convolucional basado en la arquitectura LeNet-5, capaz de obtener un 90,02 % de precisión en entrenamiento y un 68,75 % de precisión en test. En segundo lugar, se propone un modelo híbrido que emplea en una parte Time-Distributed CNN junto con una RNN en la otra, y que es capaz de mejorar el modelo anterior, con una precisión del 96,25 % en entrenamiento y 73,98 % en validación. Además, se comparan estos resultados con los obtenidos en algunos de los trabajos del estado del arte y se comenta la aparición del overfitting y las medidas de data augmentation seguidas para tratar de solucionarlo.---ABSTRACT---Throughout this work, two different ways of solving the speech emotion recognition problem through the voice by deep learning techniques are proposed. This work has been carried out taking as a basis the main existing techniques within the state of the art in this field and making the proposal of two different models capable of solving it. Specifically, these models solve the problem from the same representation of information, the mel spectrogram, but they have different architectures. Firstly, a convolutional model based on the LeNet-5 architecture is proposed, capable of obtaining 90.02 % accuracy in training and 68.75 % accuracy in testing. Secondly, a hybrid model is proposed, which uses a Time-Distributed CNN on one hand and an RNN on the other, and which is capable of improving the results of the previous model, with 96.25 % accuracy in training and 73.98 % in validation. In addition, these results are compared with those obtained in some of the state-of-the-art works. Also, the appearance of overfitting and the different data augmentation techniques followed to try to solve it are commented on.
| ID de Registro: | 63715 |
|---|---|
| Identificador DC: | https://oa.upm.es/63715/ |
| Identificador OAI: | oai:oa.upm.es:63715 |
| Depositado por: | Biblioteca Facultad de Informatica |
| Depositado el: | 10 Sep 2020 07:57 |
| Ultima Modificación: | 10 Sep 2020 07:57 |
Publicar en el Archivo Digital desde el Portal Científico