Desarrollo de un detector de eventos sonoros en Python

García-Arcicollar Ramírez, Jorge (2021). Desarrollo de un detector de eventos sonoros en Python. Trabajo Fin de Grado / Proyecto Fin de Carrera, E.T.S.I. y Sistemas de Telecomunicación (UPM), Madrid.

Descripción

Título: Desarrollo de un detector de eventos sonoros en Python
Autor/es:
  • García-Arcicollar Ramírez, Jorge
Director/es:
Tipo de Documento: Trabajo Fin de Grado o Proyecto Fin de Carrera
Grado: Grado en Ingeniería Telemática
Fecha: Enero 2021
Materias:
ODS:
Palabras Clave Informales: Señales de audio; Espectro de modulación de la envolvente (EMS)
Escuela: E.T.S.I. y Sistemas de Telecomunicación (UPM)
Departamento: Ingeniería Telemática y Electrónica
Licencias Creative Commons: Reconocimiento - Sin obra derivada - No comercial

Texto completo

[thumbnail of TFG_JORGE_GARCIA_ARCICOLLAR_RAMIREZ.pdf] PDF (Portable Document Format) - Se necesita un visor de ficheros PDF, como GSview, Xpdf o Adobe Acrobat Reader
Descargar (2MB)
[thumbnail of TFG_JORGE_GARCIA_ARCICOLLAR_RAMIREZ_ANEXOS.zip] Archivo comprimido ZIP - Acceso permitido solamente a usuarios en el campus de la UPM
Descargar (494kB)

Resumen

El espectro de modulación de la envolvente (EMS) es un análisis espectral de las modulaciones de amplitud (para frecuencias bajas) de la envolvente del sonido, dentro de bandas de frecuencia específicas. Fue estudiado en trabajos científicos relacionados con la inteligibilidad de la voz para diferenciar tipos de disartria en el habla. El EMS puede ser utilizado para caracterizar un conjunto de señales de audio, de modo que esa caracterización puede servir para clasificar una señal de audio dentro de ese grupo de señales conocidas. El objetivo principal de este proyecto es el desarrollo de un sistema que recibe como entrada una señal de audio, y puede clasificar esta señal dentro de un conjunto de señales conocidas, mediante el uso del EMS para la caracterización de las señales, identificando también el intervalo de tiempo en el que se haya producido. Esto permite el reconocimiento de distintos tipos de sonidos. La clasificación se realiza tanto para señales provenientes de una única fuente sonora como para señales que contienen fuentes de sonido solapadas en el tiempo, en un entorno ruidoso. La asociación entre la nueva señal recibida y el grupo de señales ya caracterizadas es realizada mediante el uso de librerías de software que utilizan técnicas de inteligencia artificial, tales como redes neuronales, o descomposición basada en factorización de matrices no negativas. Para la evaluación del rendimiento del sistema se han utilizado las fuentes de sonido y los criterios de evaluación de la tarea nº 2 del reto DCASE 2016, llamada Sound event detection in synthetic audio (detección de eventos sonoros en audio sintetizado), donde se propone un sistema entrenado con diversos sonidos. Además se utiliza el sistema para la detección y clasificación de sonidos mediante la captura de señales en tiempo real. El análisis de los resultados muestra que el desarrollo en Python de algoritmos que por un lado caracterizan la señal mediante el uso del EMS, y por otro la clasifican utilizando librerías de aprendizaje automático, es adecuado para la detección de eventos de sonido, tanto sobre archivos grabados como en la captura de señales de audio en tiempo real, si bien, en este caso, con un cierto retardo en la detección.
Abstract:
The Envelope Modulation Spectrum (EMS) is a spectral analysis of the amplitude modulations (for low frequencies) of the sound envelope, within specific frequency bands. It was studied in scientific works related to the intelligibility of the voice to differentiate types of speech dysarthria. EMS can be used to characterize a set of audio signals, so that characterization can be used to classify an audio signal within that group of known signals. The main objective of this project is the development of a system that receives an audio signal as input, and can classify this signal into a set of known signals, by using EMS to characterize the signals, identifying as well the time period in which it occurred. This allows us to recognize different types of sounds. The classification is made both for signals from a single sound source and for signals that contain time-overlapping sound sources in a noisy environment. The association between the new received signal and the group of already characterized signals is made through the use of software libraries that use artificial intelligence techniques, such as neural networks, or decomposition based in non negative matrix factorization. For the evaluation of the performance of the system, the sound sources and the evaluation criteria of the task number 2 of the DCASE 2016 Challenge, called Sound event detection in synthetic audio, have been used, where it is proposed a trained system with various sounds. In addition, the system is used to detect and classify sounds by capturing signals in real time. The analysis of the results shows that the development in Python of algorithms that, on the one hand, characterize the signal by means of the use of EMS, and on the other classify it using machine learning libraries, is suitable for the detection of sound events, both on recorded files as in the capture of audio signals in real time, although, in this case, with a certain delay in the detection.

Más información

ID de Registro: 70613
Identificador DC: https://oa.upm.es/70613/
Identificador OAI: oai:oa.upm.es:70613
Depositado por: Biblioteca Universitaria Campus Sur
Depositado el: 16 Jun 2022 18:58
Ultima Modificación: 16 Jun 2022 18:59