Sistema detector de eventos acústicos simultáneos

Iglesias Solana, Ignacio (2019). Sistema detector de eventos acústicos simultáneos. Proyecto Fin de Carrera / Trabajo Fin de Grado, E.T.S.I. y Sistemas de Telecomunicación (UPM), Madrid.

Description

Title: Sistema detector de eventos acústicos simultáneos
Author/s:
  • Iglesias Solana, Ignacio
Contributor/s:
  • Fraile Muñoz, Rubén
Item Type: Final Project
Degree: Grado en Ingeniería de Sonido e Imagen
Date: 27 June 2019
Subjects:
Freetext Keywords: Señales de audio; MIR (Music Information Retrieval)
Faculty: E.T.S.I. y Sistemas de Telecomunicación (UPM)
Department: Ingeniería Telemática y Electrónica
Creative Commons Licenses: Recognition - No derivative works - Non commercial

Full text

[img]
Preview
PDF - Requires a PDF viewer, such as GSview, Xpdf or Adobe Acrobat Reader
Download (1MB) | Preview

Abstract

Este proyecto consiste en el diseño, implementación y configuración de un sistema de reconocimiento automático de audio capaz de detectar eventos acústicos simultáneos dentro de una grabación y clasificarlos dentro de una categoría. La detección de eventos acústicos es una de las técnicas con mayor desarrollo en las últimas décadas dentro del campo del procesamiento de señales de audio y, en concreto, el CASA (Computational Auditory Scene Analysis o Análisis Computacional de Escenas Acústicas). Dentro de esta disciplina, existe el problema de la detección en entornos polifónicos, donde se presentan múltiples eventos acústicos solapados. La mayoría de las soluciones presentadas hasta el momento se basan en un análisis del espectrograma de la señal, extrayendo diferentes coeficientes espectrales. En este proyecto se plantea una técnica alternativa para la caracterización de la señal de audio, basada en estudiar las modulaciones en baja frecuencia de la envolvente del sonido en base al EMS (Envelope Modulation Spectrum o Espectro de Modulación de la Envolvente). El objetivo es integrar este algoritmo en un sistema basado en el análisis espectral ya codificado, y comprobar la validez de dicha caracterización para la detección polifónica de eventos. Con esta nueva implementación, se pretende dar una alternativa a la caracterización de la señal de audio y conseguir con ello disminuir el error cometido en la detección automática. Además, gracias a la naturaleza del EMS, se puede conseguir disminuir la cantidad de datos empleados en dicha caracterización. La codificación del algoritmo EMS se realiza en MATLAB, sobre el código del sistema proporcionado en la Tarea 2 del desafío DCASE 2016. Este sistema base hace uso de una caracterización con coeficientes VQT (Variable-Q Transform o Tranformada de Q Variable) obtenidos del espectrograma de la señal; y un clasificador basado en la NMF (Non-negative Matrix Factorization o Factorización no Negativa de Matrices). El desarrollo consiste en reemplazar la VQT por el EMS, adaptando el resto de partes del código que sean necesarias a las características del espectro de modulación. El sistema ha de ser capaz de caracterizar una serie de clases en base a un entrenamiento supervisado, para después poder detectar y clasificar sonidos aislados dentro de una pista de audio. Una vez se ha implementado el sistema, se llevan a cabo una serie de pruebas sobre el entorno de datos proporcionados en el DCASE 2016, para comparar los resultados con los del sistema base y poder evaluar el funcionamiento del nuevo programa implementado. Analizando las pruebas realizadas, se comprueba cómo el nuevo sistema consigue superar los resultados del antiguo. Adaptando el entrenamiento del sistema a las condiciones del entorno se logran aún mejores resultados, disminuyendo el error cometido en la detección. Además, se disminuye considerablemente el número de datos empleado para caracterizar los eventos. Pese a los buenos resultados, el sistema final admite un cierto rango de mejora, pudiendo conseguir una mayor velocidad de procesamiento y una aproximación de las marcas temporales detectadas respecto a las originales. Esto confirma la validez del EMS como caracterización de la señal de audio, y abre futuras líneas de investigación basadas en el espectro de modulación dentro del campo de la detección genérica de audio. Abstract: This project consists in the design, development and configuration of an automatic recognition system capable of detecting concurrent acoustic events on an audio recording, and classifying them based on a category. One of the techniques that has received the most growth over the last decades inside CASA (Computational Auditory Scene Analysis) is the acoustic events detection. One of the main problems that this procedure presents is the detection in polyphonic environments, where multiple overlapped events are registered. Most of the present existing solutions are based on the analysis of the signal's spectrogram, extracting different types of spectral coefficients. This project presents an alternative for the characterization of the audio signal, based on the study of the low frequency modulations of the envelope with EMS (Envelope Modulation Spectrum). The goal is to integrate this algorithm in an already coded spectral analysis-based system and test the efficacy of that characterization for polyphonic event detection. With this new feature, a new alternative for the audio signal characterization is presented, decreasing so the error of the automatic detection. Also, thanks to the envelope modulation's nature, the amount of data used for that characterization can be reduced. The coding of the EMS algorithm is performed with MATLAB, based on the code given in Task 2 of the DCASE 2016 challenge. This baseline system uses VQT (Variable-Q transform) coefficients for class characterization, obtained from the signal spectrogram; and an NMF (Non-negative Matrix Factorization) based classifier. The process consists on replacing the VQT by EMS, adjusting the other parts of the code for the characteristics of the modulation spectrum. The system has to be capable of characterizing a set of classes with a supervised training stage, and then detect and classify isolated sounds contained in an audio track. Once the system is implemented, a set of tests is performed over the system with the data given by DCASE 2016. The results are contrasted with the ones for the baseline, thus evaluating the behaviour of the new implemented software. The analysis of the evaluation proves that the new system outperforms the old one. Adjusting the training process to the environment conditions gives even better results, decreasing the error of the detection. Furthermore, the new algorithm is able to reduce significantly the amount of data needed for the events characterization. Despite the great results, the final system can be improved in multiple ways: the audio processing could be accelerated, and the audio timestamps position should be closer to the actual spots. These results verify the effectiveness of the Envelope Modulation Spectra for audio signal characterization and broadens future research lines with the modulation spectrum for universal audio detection.

More information

Item ID: 56900
DC Identifier: http://oa.upm.es/56900/
OAI Identifier: oai:oa.upm.es:56900
Deposited by: Biblioteca Universitaria Campus Sur
Deposited on: 15 Oct 2019 14:05
Last Modified: 15 Oct 2019 14:05
  • Logo InvestigaM (UPM)
  • Logo GEOUP4
  • Logo Open Access
  • Open Access
  • Logo Sherpa/Romeo
    Check whether the anglo-saxon journal in which you have published an article allows you to also publish it under open access.
  • Logo Dulcinea
    Check whether the spanish journal in which you have published an article allows you to also publish it under open access.
  • Logo de Recolecta
  • Logo del Observatorio I+D+i UPM
  • Logo de OpenCourseWare UPM