Desarrollo de un sistema para la detección de eventos acústicos utilizando técnicas de aprendizaje profundo

Monzón Alonso, Javier (2020). Desarrollo de un sistema para la detección de eventos acústicos utilizando técnicas de aprendizaje profundo. Thesis (Master thesis), E.T.S.I. Telecomunicación (UPM).

Description

Title: Desarrollo de un sistema para la detección de eventos acústicos utilizando técnicas de aprendizaje profundo
Author/s:
  • Monzón Alonso, Javier
Contributor/s:
  • Gutiérrez Arriola, Juana María
Item Type: Thesis (Master thesis)
Masters title: Ingeniería de Telecomunicación
Date: 2020
Subjects:
Freetext Keywords: Aprendizaje profundo, Inteligencia Artificial, MFCC, Redes Neuronales, CNN, RNN, CRNN, audio, clasificación eventos acústicos, procesado señal, Python, Keras, TensorFlow
Faculty: E.T.S.I. Telecomunicación (UPM)
Department: Ingeniería Electrónica
Creative Commons Licenses: Recognition - No derivative works - Non commercial

Full text

[img]
Preview
PDF - Requires a PDF viewer, such as GSview, Xpdf or Adobe Acrobat Reader
Download (4MB) | Preview

Abstract

Este trabajo fin de máster describe las actividades realizadas para el desarrollo de un sistema de aprendizaje automático que permita detectar eventos acústicos en ficheros de audio. En la actualidad, el desarrollo de esta detección es un problema que se aborda a través de la investigación de modelos de aprendizaje automático profundos como redes neuronales de gran complejidad con múltiples capas ocultas, en detrimento de métodos tradicionales de procesado de señal. En una primera fase del trabajo se lleva a cabo el estudio teórico detallado de distintas arquitecturas de redes neuronales, funciones de activación, funciones de coste, optimizadores, regularización y dropout. Posteriormente se explica la implementación del sistema y el entrenamiento utilizando distintas configuraciones para lograr el mayor porcentaje de acierto posible. Uno de los principales retos del trabajo es la extracción de características, es decir, la obtención de datos de entrenamiento. En este aspecto, se utilizan espectrogramas obtenidos a partir de bandas Mel debido a que representan adecuadamente la percepción auditiva humana, obviando componentes poco valiosos como ruido de fondo, volumen o tono y potenciando componentes útiles relevantes. Para el entrenamiento del sistema, se dispone de un total de 500 audios etiquetados obtenidos del reto DCASE 2019. Debido a que estos audios pueden contener eventos solapados, se desarrolla un sistema compuesto por dos redes neuronales. En primer lugar, una red neuronal entrenada con todas las tramas detecta el número de eventos en cada trama. Posteriormente, otra red neuronal entrenada únicamente con tramas con evento realiza la clasificación de los eventos. A lo largo del trabajo se expone la metodología empleada, herramientas utilizadas, métricas, y los distintos experimentos realizados, proporcionando resultados comparativos de distintas configuraciones evaluadas tanto en complejidad como en rendimiento para escoger la mejor. También se realiza un análisis de distintos aspectos éticos, económicos, sociales y ambientales relacionados con la temática del proyecto y se realizó el presupuesto económico. Como lenguaje de programación se emplea Python y Keras ejecutado sobre TensorFlow para la construcción y entrenamiento de las arquitecturas de ambas redes neuronales. El trabajo finaliza con la exposición de conclusiones y líneas futuras de desarrollo. Los resultados obtenidos son buenos teniendo en cuenta la complejidad del problema.

More information

Item ID: 66140
DC Identifier: http://oa.upm.es/66140/
OAI Identifier: oai:oa.upm.es:66140
Deposited by: Biblioteca ETSI Telecomunicación
Deposited on: 12 Feb 2021 08:58
Last Modified: 12 Feb 2021 08:58
  • Logo InvestigaM (UPM)
  • Logo GEOUP4
  • Logo Open Access
  • Open Access
  • Logo Sherpa/Romeo
    Check whether the anglo-saxon journal in which you have published an article allows you to also publish it under open access.
  • Logo Dulcinea
    Check whether the spanish journal in which you have published an article allows you to also publish it under open access.
  • Logo de Recolecta
  • Logo del Observatorio I+D+i UPM
  • Logo de OpenCourseWare UPM