Full text
Preview |
PDF
- Requires a PDF viewer, such as GSview, Xpdf or Adobe Acrobat Reader
Download (4MB) | Preview |
Monzón Alonso, Javier (2020). Desarrollo de un sistema para la detección de eventos acústicos utilizando técnicas de aprendizaje profundo. Thesis (Master thesis), E.T.S.I. Telecomunicación (UPM).
Title: | Desarrollo de un sistema para la detección de eventos acústicos utilizando técnicas de aprendizaje profundo |
---|---|
Author/s: |
|
Contributor/s: |
|
Item Type: | Thesis (Master thesis) |
Masters title: | Ingeniería de Telecomunicación |
Date: | 2020 |
Subjects: | |
Freetext Keywords: | Aprendizaje profundo, Inteligencia Artificial, MFCC, Redes Neuronales, CNN, RNN, CRNN, audio, clasificación eventos acústicos, procesado señal, Python, Keras, TensorFlow |
Faculty: | E.T.S.I. Telecomunicación (UPM) |
Department: | Ingeniería Electrónica |
Creative Commons Licenses: | Recognition - No derivative works - Non commercial |
Preview |
PDF
- Requires a PDF viewer, such as GSview, Xpdf or Adobe Acrobat Reader
Download (4MB) | Preview |
Este trabajo fin de máster describe las actividades realizadas para el desarrollo de un sistema de aprendizaje automático que permita detectar eventos acústicos en ficheros de audio. En la actualidad, el desarrollo de esta detección es un problema que se aborda a través de la investigación de modelos de aprendizaje automático profundos como redes neuronales de gran complejidad con múltiples capas ocultas, en detrimento de métodos tradicionales de procesado de señal.
En una primera fase del trabajo se lleva a cabo el estudio teórico detallado de distintas arquitecturas de redes neuronales, funciones de activación, funciones de coste, optimizadores, regularización y dropout. Posteriormente se explica la implementación del sistema y el entrenamiento utilizando distintas configuraciones para lograr el mayor porcentaje de acierto posible.
Uno de los principales retos del trabajo es la extracción de características, es decir, la obtención de datos de entrenamiento. En este aspecto, se utilizan espectrogramas obtenidos a partir de bandas Mel debido a que representan adecuadamente la percepción auditiva humana, obviando componentes poco valiosos como ruido de fondo, volumen o tono y potenciando componentes útiles relevantes.
Para el entrenamiento del sistema, se dispone de un total de 500 audios etiquetados obtenidos del reto DCASE 2019. Debido a que estos audios pueden contener eventos solapados, se desarrolla un sistema compuesto por dos redes neuronales. En primer lugar, una red neuronal entrenada con todas las tramas detecta el número de eventos en cada trama. Posteriormente, otra red neuronal entrenada únicamente con tramas con evento realiza la clasificación de los eventos.
A lo largo del trabajo se expone la metodología empleada, herramientas utilizadas, métricas, y los distintos experimentos realizados, proporcionando resultados comparativos de distintas configuraciones evaluadas tanto en complejidad como en rendimiento para escoger la mejor.
También se realiza un análisis de distintos aspectos éticos, económicos, sociales y ambientales relacionados con la temática del proyecto y se realizó el presupuesto económico.
Como lenguaje de programación se emplea Python y Keras ejecutado sobre TensorFlow para la construcción y entrenamiento de las arquitecturas de ambas redes neuronales.
El trabajo finaliza con la exposición de conclusiones y líneas futuras de desarrollo. Los resultados obtenidos son buenos teniendo en cuenta la complejidad del problema.
Item ID: | 66140 |
---|---|
DC Identifier: | https://oa.upm.es/66140/ |
OAI Identifier: | oai:oa.upm.es:66140 |
Deposited by: | Biblioteca ETSI Telecomunicación |
Deposited on: | 12 Feb 2021 08:58 |
Last Modified: | 12 Feb 2021 08:58 |