Implementación de un sistema para la discriminación automática de contenido sonoro en grabaciones vocales y musicales

Cobo-Reyes Lendínez, Lourdes (2018). Implementación de un sistema para la discriminación automática de contenido sonoro en grabaciones vocales y musicales. Proyecto Fin de Carrera / Trabajo Fin de Grado, E.T.S.I. Telecomunicación (UPM).

Descripción

Título: Implementación de un sistema para la discriminación automática de contenido sonoro en grabaciones vocales y musicales
Autor/es:
  • Cobo-Reyes Lendínez, Lourdes
Director/es:
  • Casajús Quirós, Francisco Javier
Tipo de Documento: Proyecto Fin de Carrera/Grado
Grado: Grado en Ingeniería de Tecnologías y Servicios de Telecomunicación
Fecha: 2018
Materias:
Palabras Clave Informales: Clasificación, música, voz, Índice de Cruces por Cero, Líneas Frecuenciales Espectrales, algoritmo, Bayes, k-Vecinos más próximos, Redes Neuronales Convolucionales, tiempo real.
Escuela: E.T.S.I. Telecomunicación (UPM)
Departamento: Señales, Sistemas y Radiocomunicaciones
Licencias Creative Commons: Reconocimiento - Sin obra derivada - No comercial

Texto completo

[img]
Vista Previa
PDF (Document Portable Format) - Se necesita un visor de ficheros PDF, como GSview, Xpdf o Adobe Acrobat Reader
Descargar (3MB) | Vista Previa

Resumen

Se implementará un sistema capaz de discriminar fragmentos de voz y música mediante el análisis de propiedades de señales de audio digital y algoritmos de clasificación. Para ello, será necesario definir en primera instancia la naturaleza y la estructura de una señal de audio y así comprender de la mejor manera posible cómo se comportan y modelan. Adicionalmente, se explicará el modelo de producción de voz humana, muy utilizado en codificación de voz ya que supone la base de su estructura teórica. La elección de los parámetros se establece con el objetivo de sacar el máximo partido tanto al análisis en el dominio temporal como frecuencia. De esta manera, utilizaremos los Índices de Cruces por Cero y las Frecuencias Lineales Espectrales, ambos de baja complejidad tanto teórica como computacional. Sin embargo, se verá que poseen un alto grado de representación de patrones en señales de voz y música. Una vez establecidas las diferencias entre las naturalezas de nuestras señales bajo estudio, se llevará a cabo un proceso de entrenamiento y validación mediante dos procedimientos independientes, el Vecino Más Próximo y la Red Neuronal Convolucional, descartando así la clasificación mediante la Teoría de Decisión de Bayes debido a la naturaleza de nuestros vectores. Aun así, diversos conceptos introducidos en la misma deberán ser tenidos en cuenta para comprender los distintos desarrollos. Finalmente, se respaldará toda la base teórica con resultados prácticos obtenidos tras el desarrollo y simulación de nuestro sistema mediante Matlab. Una base de datos de ciento veintiocho archivos de treinta segundos de duración será utilizada como vectores de entrenamiento y de test. Trabajaremos con la división de los ficheros en fragmentos de doscientas cuarenta muestras para evitar solapamiento y mala caracterización. Con ellos determinaremos la mejor clasificación y algoritmo posibles dentro de nuestro análisis. Además, se comprobará el potencial efectivo de la técnica situándola en un escenario concreto, en tiempo real.

Más información

ID de Registro: 51556
Identificador DC: http://oa.upm.es/51556/
Identificador OAI: oai:oa.upm.es:51556
Depositado por: Biblioteca ETSI Telecomunicación
Depositado el: 09 Jul 2018 12:32
Ultima Modificación: 09 Jul 2018 12:32
  • GEO_UP4
  • Open Access
  • Open Access
  • Sherpa-Romeo
    Compruebe si la revista anglosajona en la que ha publicado un artículo permite también su publicación en abierto.
  • Dulcinea
    Compruebe si la revista española en la que ha publicado un artículo permite también su publicación en abierto.
  • Recolecta
  • InvestigaM
  • Observatorio I+D+i UPM
  • OpenCourseWare UPM