Procesamiento de audio en tiempo real para estimar la dirección de fuentes sonoras

Pereira Martínez, Juan Carlos (2018). Procesamiento de audio en tiempo real para estimar la dirección de fuentes sonoras. Proyecto Fin de Carrera / Trabajo Fin de Grado, E.T.S.I. y Sistemas de Telecomunicación (UPM), Madrid.

Description

Title: Procesamiento de audio en tiempo real para estimar la dirección de fuentes sonoras
Author/s:
  • Pereira Martínez, Juan Carlos
Contributor/s:
  • Fraile Muñoz, Rubén
Item Type: Final Project
Degree: Grado en Ingeniería Electrónica de Comunicaciones
Date: 27 July 2018
Subjects:
Freetext Keywords: Fuentes sonoras
Faculty: E.T.S.I. y Sistemas de Telecomunicación (UPM)
Department: Teoría de la Señal y Comunicaciones
Creative Commons Licenses: Recognition - No derivative works - Non commercial

Full text

[img]
Preview
PDF - Requires a PDF viewer, such as GSview, Xpdf or Adobe Acrobat Reader
Download (1MB) | Preview
[img] Archive (ZIP) (Anexos) - Users in campus UPM only
Download (678kB)

Abstract

Este proyecto, que culmina en un programa compatible con Windows Vista y versiones posteriores de Windows, proporciona una solución para la estimación de la dirección de fuentes sonoras, a partir de la técnica TDOA aplicada al audio capturado por dos micrófonos conectados a una tarjeta de sonido. El algoritmo, implementado para su funcionamiento en tiempo real, calcula la correlación cruzada de las muestras de audio adquiridas con el fin de hallar la diferencia de tiempo de llegada del sonido a cada micrófono y, con ese dato, obtiene la hipérbola que representa la estimación de la dirección de la fuente sonora, aplicada a un único plano. El programa ha sido escrito en lenguaje C++, compilable con el entorno de desarrollo Visual Studio 2017. En todo momento, se ha considerado como requisito su compatibilidad con las librerías de audio WASAPI y MMDevice, según recomienda Microsoft para nuevas aplicaciones de audio. Otras librerías de audio de altas prestaciones han sido descartadas por sus condiciones de licencia. El proyecto también cumple el propósito de proporcionar una plataforma base para la creación de nuevas aplicaciones de captura y tratamiento de audio en tiempo real en Windows. La manera en que se ha estructurado el código fuente facilita la reutilización de varias clases específicamente diseñadas para la enumeración de los dispositivos de captura conectados al ordenador y para la adquisición del audio, así como de una clase que implementa la creación de un hilo de trabajo independiente dedicado a la adquisición y tratamiento del audio en tiempo real. El código fuente desarrollado está preparado para soportar dispositivos de captura de audio multicanal. Sin embargo, en la práctica, no se ha localizado hardware de ese tipo que fuera compatible con la librería de audio WASAPI. Tras varias pruebas de concepto, se ha logrado una solución de reducido coste que resuelve ese inconveniente, bajo dos condiciones. Primera, la conexión de varios dispositivos del mismo modelo que posean latencias al comienzo de la captura muy similares y, segunda, el inicio simultáneo de la captura de todos dispositivos mediante un hilo de trabajo dedicado a cada uno de ellos. Abstract: This project, which culminates in software compatible with Windows Vista or later versions, provides a solution for the estimation of the direction of sound sources, using the TDOA technique applied to the audio captured by two microphones connected to a sound card. The algorithm, implemented to function in real time, calculates the cross correlation of the audio samples acquired in order to find the time difference of arrival of the sound to each microphone and, with that data, to obtain the hyperbola that represents the estimation of the direction of the sound source, applied to a unique plane. The program has been written in C++ that can be compiled using Visual Studio 2017. Its compatibility with the audio libraries WASAPI and MMDevice has always been considered as a requirement, according to Microsoft recommendations for new audio applications. There are also other high-quality audio libraries that have been disregarded because of their license conditions. In addition, the project also provides a base platform that can be used for the development of new applications in Windows, useful for audio acquisition and its real-time processing. The way the source code has been structured facilitates the reutilization of some classes specifically designed for discovering audio devices connected to the computer and for acquiring audio, and another class that implements the creation of an independent working thread dedicated to the audio acquisition and its real-time processing. The source code that has been written is ready to support multichannel audio capture devices. However, in reality, there has not been hardware found of that type compatible with the WASAPI audio library. After some tests, a low-cost solution has been achieved in order to solve that inconvenience, based on two conditions. The first, being the connection of several audio capture devices of the same model that must have similar latencies when starting the audio acquisition. The second, the audio acquisition of every device must start at the same time using a working thread for each one.

More information

Item ID: 53213
DC Identifier: http://oa.upm.es/53213/
OAI Identifier: oai:oa.upm.es:53213
Deposited by: Biblioteca Universitaria Campus Sur
Deposited on: 10 Dec 2018 07:02
Last Modified: 10 Dec 2018 07:02
  • Logo InvestigaM (UPM)
  • Logo GEOUP4
  • Logo Open Access
  • Open Access
  • Logo Sherpa/Romeo
    Check whether the anglo-saxon journal in which you have published an article allows you to also publish it under open access.
  • Logo Dulcinea
    Check whether the spanish journal in which you have published an article allows you to also publish it under open access.
  • Logo de Recolecta
  • Logo del Observatorio I+D+i UPM
  • Logo de OpenCourseWare UPM