Diseño de un sistema para la discriminación automática voz/música de señales de audio basado en vectores "chroma"

Gómez del Campo del Bosque, Pablo (2018). Diseño de un sistema para la discriminación automática voz/música de señales de audio basado en vectores "chroma". Proyecto Fin de Carrera / Trabajo Fin de Grado, E.T.S.I. Telecomunicación (UPM), Madrid.

Description

Title: Diseño de un sistema para la discriminación automática voz/música de señales de audio basado en vectores "chroma"
Author/s:
  • Gómez del Campo del Bosque, Pablo
Contributor/s:
  • Casajús Quirós, Francisco Javier
Item Type: Final Project
Degree: Grado en Ingeniería de Tecnologías y Servicios de Telecomunicación
Date: 2018
Subjects:
Freetext Keywords: Discriminación, voz, detección de voz, música, detección de música, vectores chroma, chroma, audio, Bayes, knn, tiempo real.
Faculty: E.T.S.I. Telecomunicación (UPM)
Department: Señales, Sistemas y Radiocomunicaciones
Creative Commons Licenses: Recognition - No derivative works - Non commercial

Full text

[img]
Preview
PDF - Requires a PDF viewer, such as GSview, Xpdf or Adobe Acrobat Reader
Download (2MB) | Preview

Abstract

La discriminación o clasificación de voz/música es muy relevante para el procesamiento de grabaciones vocales y musicales. Segmentar una transmisión de audio antes de un proceso costoso es valioso por varias razones: Por un lado, reconocer secciones de una señal que no pertenecen a la tarea en cuestión reduce el tiempo de cálculo y permite una asignación de recursos más eficiente. Además, la clasificación de audio puede purificar datos para modelos de entrenamiento más precisos y pruebas más limpias. Estos problemas son especialmente importantes cuando los datos contienen tanto voz como música, ya que ambas son señales que a menudo son difíciles de distinguir para los detectores de actividad genéricos. Existen diferentes características que se pueden tener en cuenta para la discriminación de voz/música, como por ejemplo la varianza de los cruces por cero de la señal (ZCR), la desviación estándar del valor RMS de la señal, los coeficientes cepstrales Mel, la entropía espectral, o, la característica que se pretende explotar en este trabajo, los vectores "chroma". Los vectores "chroma" son una representación de 12 elementos de la energía espectral de una señal musical que se basa en los primeros estudios sobre la percepción humana del tono. Cada elemento del vector corresponde a una de las doce notas de la escala de la música occidental. El vector "chroma" codifica y representa las relaciones armónicas dentro de una señal de música y se puede calcular fácilmente a corto plazo utilizando como base los coeficientes DFT. La secuencia resultante de vectores de croma se conoce como chromagrama (como una analogía del espectrograma). Se observarán las diferencias entre la voz y la música explotando dos características de estos vectores “chroma”, la diferenciación de “chroma” y el “chroma” de alta frecuencia, así como el método de clasificación knn. Como bases de datos se utilizará la GTZAN Music/Speech, compuesta por grabaciones de voz y de música. El entorno de aplicación es en radiodifusión y se pretende una clasificación en tiempo real de grabaciones según su contenido: voz o música. Es un trabajo a desarrollar con herramientas de alto nivel.

More information

Item ID: 52005
DC Identifier: http://oa.upm.es/52005/
OAI Identifier: oai:oa.upm.es:52005
Deposited by: Biblioteca ETSI Telecomunicación
Deposited on: 03 Sep 2018 06:12
Last Modified: 03 Sep 2018 06:12
  • Logo InvestigaM (UPM)
  • Logo GEOUP4
  • Logo Open Access
  • Open Access
  • Logo Sherpa/Romeo
    Check whether the anglo-saxon journal in which you have published an article allows you to also publish it under open access.
  • Logo Dulcinea
    Check whether the spanish journal in which you have published an article allows you to also publish it under open access.
  • Logo de Recolecta
  • Logo del Observatorio I+D+i UPM
  • Logo de OpenCourseWare UPM