Implementación de un sistema para la discriminación automática de contenido sonoro en grabaciones vocales y musicales

Cobo-Reyes Lendínez, Lourdes (2018). Implementación de un sistema para la discriminación automática de contenido sonoro en grabaciones vocales y musicales. Proyecto Fin de Carrera / Trabajo Fin de Grado, E.T.S.I. Telecomunicación (UPM).

Description

Title: Implementación de un sistema para la discriminación automática de contenido sonoro en grabaciones vocales y musicales
Author/s:
  • Cobo-Reyes Lendínez, Lourdes
Contributor/s:
  • Casajús Quirós, Francisco Javier
Item Type: Final Project
Degree: Grado en Ingeniería de Tecnologías y Servicios de Telecomunicación
Date: 2018
Subjects:
Freetext Keywords: Clasificación, música, voz, Índice de Cruces por Cero, Líneas Frecuenciales Espectrales, algoritmo, Bayes, k-Vecinos más próximos, Redes Neuronales Convolucionales, tiempo real.
Faculty: E.T.S.I. Telecomunicación (UPM)
Department: Señales, Sistemas y Radiocomunicaciones
Creative Commons Licenses: Recognition - No derivative works - Non commercial

Full text

[img]
Preview
PDF - Requires a PDF viewer, such as GSview, Xpdf or Adobe Acrobat Reader
Download (3MB) | Preview

Abstract

Se implementará un sistema capaz de discriminar fragmentos de voz y música mediante el análisis de propiedades de señales de audio digital y algoritmos de clasificación. Para ello, será necesario definir en primera instancia la naturaleza y la estructura de una señal de audio y así comprender de la mejor manera posible cómo se comportan y modelan. Adicionalmente, se explicará el modelo de producción de voz humana, muy utilizado en codificación de voz ya que supone la base de su estructura teórica. La elección de los parámetros se establece con el objetivo de sacar el máximo partido tanto al análisis en el dominio temporal como frecuencia. De esta manera, utilizaremos los Índices de Cruces por Cero y las Frecuencias Lineales Espectrales, ambos de baja complejidad tanto teórica como computacional. Sin embargo, se verá que poseen un alto grado de representación de patrones en señales de voz y música. Una vez establecidas las diferencias entre las naturalezas de nuestras señales bajo estudio, se llevará a cabo un proceso de entrenamiento y validación mediante dos procedimientos independientes, el Vecino Más Próximo y la Red Neuronal Convolucional, descartando así la clasificación mediante la Teoría de Decisión de Bayes debido a la naturaleza de nuestros vectores. Aun así, diversos conceptos introducidos en la misma deberán ser tenidos en cuenta para comprender los distintos desarrollos. Finalmente, se respaldará toda la base teórica con resultados prácticos obtenidos tras el desarrollo y simulación de nuestro sistema mediante Matlab. Una base de datos de ciento veintiocho archivos de treinta segundos de duración será utilizada como vectores de entrenamiento y de test. Trabajaremos con la división de los ficheros en fragmentos de doscientas cuarenta muestras para evitar solapamiento y mala caracterización. Con ellos determinaremos la mejor clasificación y algoritmo posibles dentro de nuestro análisis. Además, se comprobará el potencial efectivo de la técnica situándola en un escenario concreto, en tiempo real.

More information

Item ID: 51556
DC Identifier: http://oa.upm.es/51556/
OAI Identifier: oai:oa.upm.es:51556
Deposited by: Biblioteca ETSI Telecomunicación
Deposited on: 09 Jul 2018 12:32
Last Modified: 09 Jul 2018 12:32
  • Logo InvestigaM (UPM)
  • Logo GEOUP4
  • Logo Open Access
  • Open Access
  • Logo Sherpa/Romeo
    Check whether the anglo-saxon journal in which you have published an article allows you to also publish it under open access.
  • Logo Dulcinea
    Check whether the spanish journal in which you have published an article allows you to also publish it under open access.
  • Logo de Recolecta
  • Logo del Observatorio I+D+i UPM
  • Logo de OpenCourseWare UPM