Desarrollo de un sistema de detección del nivel de música sobre voz en señales de audio basado en redes neuronales

Rodríguez Blázquez, Daniel (2019). Desarrollo de un sistema de detección del nivel de música sobre voz en señales de audio basado en redes neuronales. Proyecto Fin de Carrera / Trabajo Fin de Grado, E.T.S.I. Telecomunicación (UPM), Madrid.

Description

Title: Desarrollo de un sistema de detección del nivel de música sobre voz en señales de audio basado en redes neuronales
Author/s:
  • Rodríguez Blázquez, Daniel
Contributor/s:
  • Blanco Adán, Carlos Roberto del
  • Dueñas Suárez, Raquel
Item Type: Final Project
Degree: Grado en Ingeniería de Tecnologías y Servicios de Telecomunicación
Date: 2019
Subjects:
Freetext Keywords: Inteligencia Artificial, Deep Learning, redes neuronales, música, habla.
Faculty: E.T.S.I. Telecomunicación (UPM)
Department: Señales, Sistemas y Radiocomunicaciones
Creative Commons Licenses: Recognition - No derivative works - Non commercial

Full text

[img]
Preview
PDF - Requires a PDF viewer, such as GSview, Xpdf or Adobe Acrobat Reader
Download (10MB) | Preview

Abstract

La distinción entre voz y audio lleva siendo durante muchos años un objeto de estudio en el campo de la Inteligencia Artificial. Este tema ha llevado a diversos trabajos centrados en la distinción de géneros musicales, detección del pitch o el reconocimiento de instrumentos entre otras cosas. Además, existen otros trabajos como la recomendación de música y la distinción de locutores que empiezan a jugar un papel importante en un mundo cada vez más digital y autónomo. Sin embargo, en este campo existen una serie de limitaciones ya que el hecho de distinguir automáticamente música y habla no es una tarea fácil de realizar por las similitudes que ambas señales comparten. Por lo tanto, para abordar la mayoría de los trabajos son necesarias técnicas de desarrollo avanzadas como pueden ser el Machine Learning o el Deep Learning. En este trabajo se va a proponer una solución para distinguir en una señal de audio que combina habla y música, cual es el nivel relativo de música respecto a la voz. Una posible aplicación de este trabajo puede ser el reconocimiento de segmentos de música con derechos de autor en transmisiones de televisión y radio, donde puede haber música de fondo en una conversación, entrevista, debate, etc. Para lograr lo recién mencionado se va diseñar y entrenar una red neuronal para distinguir el nivel de música sobre voz que hay en una señal de audio. Para ello se creará una base de datos con segmentos de voz y música mezclados con distintos niveles de música. Esta base de datos se preprocesará para obtener espectrogramas, los cuales son señales bidimensionales susceptibles de ser analizadas por redes convolucionales. Finalmente, se realizarán experimentos para comprobar la capacidad de aprendizaje y de éxito que dicha red es capaz de lograr.

More information

Item ID: 55779
DC Identifier: http://oa.upm.es/55779/
OAI Identifier: oai:oa.upm.es:55779
Deposited by: Biblioteca ETSI Telecomunicación
Deposited on: 11 Jul 2019 14:46
Last Modified: 11 Jul 2019 14:46
  • Logo InvestigaM (UPM)
  • Logo GEOUP4
  • Logo Open Access
  • Open Access
  • Logo Sherpa/Romeo
    Check whether the anglo-saxon journal in which you have published an article allows you to also publish it under open access.
  • Logo Dulcinea
    Check whether the spanish journal in which you have published an article allows you to also publish it under open access.
  • Logo de Recolecta
  • Logo del Observatorio I+D+i UPM
  • Logo de OpenCourseWare UPM