Texto completo
|
PDF (Portable Document Format)
- Se necesita un visor de ficheros PDF, como GSview, Xpdf o Adobe Acrobat Reader
Descargar (4MB) |
ORCID: https://orcid.org/0009-0000-6069-7768
(2023).
Estudio para el empleo de Esquemas Profundos en Auralización Sintética.
Trabajo Fin de Grado / Proyecto Fin de Carrera, E.T.S.I. Telecomunicación (UPM), Madrid, España.
| Título: | Estudio para el empleo de Esquemas Profundos en Auralización Sintética |
|---|---|
| Autor/es: |
|
| Director/es: |
|
| Tipo de Documento: | Trabajo Fin de Grado o Proyecto Fin de Carrera |
| Grado: | Grado en Ingeniería de Tecnologías y Servicios de Telecomunicación |
| Fecha: | 12 Julio 2023 |
| Materias: | |
| ODS: | |
| Palabras Clave Informales: | HRTF, función de transferencia relativa a la cabeza, auralización, lateralización, aprendizaje automático, aprendizaje profundo, redes neuronales convolucionales, VAE, Autocodificador Variacional, espacio latente, interpolación, individualización |
| Escuela: | E.T.S.I. Telecomunicación (UPM) |
| Departamento: | Señales, Sistemas y Radiocomunicaciones |
| Grupo Investigación UPM: | Aplicaciones del Procesado de Señal GAPS |
| Licencias Creative Commons: | Reconocimiento - Compartir igual |
|
PDF (Portable Document Format)
- Se necesita un visor de ficheros PDF, como GSview, Xpdf o Adobe Acrobat Reader
Descargar (4MB) |
Las tecnologías audiovisuales tienden, cada vez más, hacia la inmersión del usuario y el realismo de su experiencia, dadas las múltiples ventajas comerciales y prácticas que estos avances tienen. En particular, las técnicas de procesado de audio y se hallan en continuo desarrollo, en pos del modelado de los campos sonoros ocurrentes en distintos entornos y la creación de escenarios acústicos virtuales, en un proceso conocido como auralización. Este proceso se puede basar en una variedad de técnicas. El presente Trabajo de Fin de Grado se centra en la implementación de la auralización mediante filtrado lineal de las señales de audio con una función de transferencia conocida como HRTF (Head Related Transfer Function). Esta, definida como la transformación lineal sufrida por las señales acústicas desde cada punto del espacio hasta las entradas de los canales auditivos, permite, para un sujeto concreto, recrear la sensación sonora de una escena, a partir de la direccionalidad arbitraria de la fuente sonora; empleando únicamente para ello dos canales estereofónicos. La obtención de esta HRTF plantea múltiples retos, dadas las limitaciones de los equipos y métodos de medida, así como el coste de realizar dichas medidas. Adicionalmente, las HRTF son individuales y dependientes de la morfología de cada individuo. Esto va en detrimento de sus resultados cuando se evalúa en sujetos no medidos directamente. Para paliar dichas dificultades e implementar la auralización, existen numerosas técnicas de procesado: interpolación, individualización y filtrado tipo solapamiento-suma, entre otros. El presente trabajo implementa, primero, una herramienta con algunas de las técnicas anteriores, llamadas procedurales (procedural audio) y evalúa su desempeño.
Adicionalmente, los avances recientes en el campo del aprendizaje automático y, especialmente, los esquemas profundos, brindan nuevas oportunidades en el campo de la auralización sintética. El presente trabajo se centra en la arquitectura de los Autocodificadores Variacionales (VAE), capaces de reconstruir los audios a su entrada, generando en el corazón de su estructura una representación compacta del fenómeno “filtrado mediante HRTF”, impreso en los datos que sirven a su entrenamiento. El presente trabajo implementa varias arquitecturas VAE, las entrena con datos obtenidos de una HRTF genérica (maniquí KEMAR) y analiza su calidad de reconstrucción, tanto objetiva como subjetivamente, así como la estructura emergida en sus espacios latentes. Los resultados obtenidos por las métricas objetivas de calidad perceptual (PEAQ y VISQoL-Audio) de los audios reconstruidos oscilan entre una degradación molesta (3/5) y una perceptible, pero no molesta (4/5) con lo que, a ese respecto, hay margen de mejora. Las estructuras observadas en los espacios latentes (mediante PCA y t-SNE) parecen ser significativas en cuanto a direccionalidad de fuente sonora, si bien la variación en el plano transversal (diferencias interaurales) está mejor representada que la variación en el plano sagital (conformación espectral efectuada por los pabellones auditivos).
La exploración y modificación de los espacios latentes abre nuevos caminos en términos de implementación de la auralización, interpolación e individualización de HRTF. Por último, analizando las posibilidades y limitaciones de todas las anteriores tecnologías, se proponen posibles líneas de investigación futuras.
| ID de Registro: | 83251 |
|---|---|
| Identificador DC: | https://oa.upm.es/83251/ |
| Identificador OAI: | oai:oa.upm.es:83251 |
| Depositado por: | Fernando Marcos |
| Depositado el: | 02 Sep 2024 07:43 |
| Ultima Modificación: | 02 Sep 2024 07:43 |
Publicar en el Archivo Digital desde el Portal Científico