Estudio para el empleo de Esquemas Profundos en Auralización Sintética

Marcos Macías, Fernando ORCID: https://orcid.org/0009-0000-6069-7768 (2023). Estudio para el empleo de Esquemas Profundos en Auralización Sintética. Trabajo Fin de Grado / Proyecto Fin de Carrera, E.T.S.I. Telecomunicación (UPM), Madrid, España.

Descripción

Título: Estudio para el empleo de Esquemas Profundos en Auralización Sintética
Autor/es:
Director/es:
Tipo de Documento: Trabajo Fin de Grado o Proyecto Fin de Carrera
Grado: Grado en Ingeniería de Tecnologías y Servicios de Telecomunicación
Fecha: 12 Julio 2023
Materias:
ODS:
Palabras Clave Informales: HRTF, función de transferencia relativa a la cabeza, auralización, lateralización, aprendizaje automático, aprendizaje profundo, redes neuronales convolucionales, VAE, Autocodificador Variacional, espacio latente, interpolación, individualización
Escuela: E.T.S.I. Telecomunicación (UPM)
Departamento: Señales, Sistemas y Radiocomunicaciones
Grupo Investigación UPM: Aplicaciones del Procesado de Señal GAPS
Licencias Creative Commons: Reconocimiento - Compartir igual

Texto completo

[thumbnail of TFG_GITST_FMM.pdf] PDF (Portable Document Format) - Se necesita un visor de ficheros PDF, como GSview, Xpdf o Adobe Acrobat Reader
Descargar (4MB)

Resumen

Las tecnologías audiovisuales tienden, cada vez más, hacia la inmersión del usuario y el realismo de su experiencia, dadas las múltiples ventajas comerciales y prácticas que estos avances tienen. En particular, las técnicas de procesado de audio y se hallan en continuo desarrollo, en pos del modelado de los campos sonoros ocurrentes en distintos entornos y la creación de escenarios acústicos virtuales, en un proceso conocido como auralización. Este proceso se puede basar en una variedad de técnicas. El presente Trabajo de Fin de Grado se centra en la implementación de la auralización mediante filtrado lineal de las señales de audio con una función de transferencia conocida como HRTF (Head Related Transfer Function). Esta, definida como la transformación lineal sufrida por las señales acústicas desde cada punto del espacio hasta las entradas de los canales auditivos, permite, para un sujeto concreto, recrear la sensación sonora de una escena, a partir de la direccionalidad arbitraria de la fuente sonora; empleando únicamente para ello dos canales estereofónicos. La obtención de esta HRTF plantea múltiples retos, dadas las limitaciones de los equipos y métodos de medida, así como el coste de realizar dichas medidas. Adicionalmente, las HRTF son individuales y dependientes de la morfología de cada individuo. Esto va en detrimento de sus resultados cuando se evalúa en sujetos no medidos directamente. Para paliar dichas dificultades e implementar la auralización, existen numerosas técnicas de procesado: interpolación, individualización y filtrado tipo solapamiento-suma, entre otros. El presente trabajo implementa, primero, una herramienta con algunas de las técnicas anteriores, llamadas procedurales (procedural audio) y evalúa su desempeño.

Adicionalmente, los avances recientes en el campo del aprendizaje automático y, especialmente, los esquemas profundos, brindan nuevas oportunidades en el campo de la auralización sintética. El presente trabajo se centra en la arquitectura de los Autocodificadores Variacionales (VAE), capaces de reconstruir los audios a su entrada, generando en el corazón de su estructura una representación compacta del fenómeno “filtrado mediante HRTF”, impreso en los datos que sirven a su entrenamiento. El presente trabajo implementa varias arquitecturas VAE, las entrena con datos obtenidos de una HRTF genérica (maniquí KEMAR) y analiza su calidad de reconstrucción, tanto objetiva como subjetivamente, así como la estructura emergida en sus espacios latentes. Los resultados obtenidos por las métricas objetivas de calidad perceptual (PEAQ y VISQoL-Audio) de los audios reconstruidos oscilan entre una degradación molesta (3/5) y una perceptible, pero no molesta (4/5) con lo que, a ese respecto, hay margen de mejora. Las estructuras observadas en los espacios latentes (mediante PCA y t-SNE) parecen ser significativas en cuanto a direccionalidad de fuente sonora, si bien la variación en el plano transversal (diferencias interaurales) está mejor representada que la variación en el plano sagital (conformación espectral efectuada por los pabellones auditivos).

La exploración y modificación de los espacios latentes abre nuevos caminos en términos de implementación de la auralización, interpolación e individualización de HRTF. Por último, analizando las posibilidades y limitaciones de todas las anteriores tecnologías, se proponen posibles líneas de investigación futuras.

Más información

ID de Registro: 83251
Identificador DC: https://oa.upm.es/83251/
Identificador OAI: oai:oa.upm.es:83251
Depositado por: Fernando Marcos
Depositado el: 02 Sep 2024 07:43
Ultima Modificación: 02 Sep 2024 07:43