Detección automática de patología en voz a través de un canal GSM

Sánchez García, Carmelo (2017). Detección automática de patología en voz a través de un canal GSM. Proyecto Fin de Carrera / Trabajo Fin de Grado, E.T.S.I. y Sistemas de Telecomunicación (UPM), Madrid.

Description

Title: Detección automática de patología en voz a través de un canal GSM
Author/s:
  • Sánchez García, Carmelo
Contributor/s:
  • Fraile Muñoz, Rubén
Item Type: Final Project
Date: 27 July 2017
Subjects:
Faculty: E.T.S.I. y Sistemas de Telecomunicación (UPM)
Department: Teoría de la Señal y Comunicaciones
Creative Commons Licenses: Recognition - No derivative works - Non commercial

Full text

[img]
Preview
PDF - Requires a PDF viewer, such as GSview, Xpdf or Adobe Acrobat Reader
Download (1MB) | Preview

Abstract

El objetivo de este proyecto es el estudio de la eficacia de un clasificador basado en redes neuronales artificiales para la discriminación de voz patológica cuando la señal de voz a sufrido la distorsión de un códec de voz, en este caso el códec GSM Full rate, mediante la introducción de parámetros MFCC en la red neuronal artificial. El uso del codificador GSM Full Rate para trasmitir voz implica una distorsión inherente a su diseño pero también tenemos que tener en cuenta una predistorsión necesaria ya que tenemos que ajustar la frecuencia de muestreo y el número de bits de cuantificación que requiere la entrada al codificador. Las grabaciones de voz disponibles están muestreadas a una frecuencia de 25 kHz y tienen 16 bits por muestra. La entrada al codificador requiere que la señal de voz este muestreada a 8 kHz y tengan 13 bit por muestra. Después hay que tener en cuenta el efecto de codificar y decodificar la señal. Valoraremos tanto los cambios a los que se ve sometida la señal hasta llegar a la entrada del codificador como la distorsión que debe sufrir al ser sometida al codificador de voz GSM Full Rate. Este análisis lo haremos parametrizando la voz mediante coeficientes cepstrales en la escala de Mel (MFCC), ya que se ha demostrado que son robustos contra distintas clases de distorsión. Estos parámetros los introduciremos en un clasificador consistente en una red neuronal artificial de la cual obtendremos unos resultados que nos permitan valorar la influencia del codificador en la detección automática de patología de voz. ABSTRACT. The objective of this project is the study of the efficiency of a classifier based on artificial neural networks for pathological voice discrimination when the speech signal has undergone the distortion of a speech codec, in this case the GSM FR codec, through introducing MFCC parameters in the artificial neural network. The use GSM Full Rate codec to transmit speech implies an inherent distortion in its design but also a predistortion needed to adjust the sampling frequency of the signal and the number of quantization bits which requires the input to the codec. Available speech recordings are sampled at a frequency of 25 kHz and have 16 bits per sample. The input to the GSM Full Rate codec requires that the speech signal is sampled at 8 kHz and have 13 bits per sample. Then we have to take into account the effect of encoding and decoding of speech signal. We will evaluate both the changes to which the speech signal is subjected until reaching the input of the encoder as the distortion that must experienced when is subjected to the encoder GSM Full Rate. For the herein reported study, speech signal has been parameterized by means of the Mel frequency cepstral coefficients (MFCC), since they have been shown to be fairly robust against different kinds of distortion. These parameters are introduced in a classifier consisting in an artificial neural network from which we obtain results that allow us to evaluate the influence of the encoder in the automatic detection of speech pathology.

More information

Item ID: 49955
DC Identifier: http://oa.upm.es/49955/
OAI Identifier: oai:oa.upm.es:49955
Deposited by: Biblioteca Universitaria Campus Sur
Deposited on: 03 Apr 2018 07:16
Last Modified: 03 Apr 2018 07:16
  • Logo InvestigaM (UPM)
  • Logo GEOUP4
  • Logo Open Access
  • Open Access
  • Logo Sherpa/Romeo
    Check whether the anglo-saxon journal in which you have published an article allows you to also publish it under open access.
  • Logo Dulcinea
    Check whether the spanish journal in which you have published an article allows you to also publish it under open access.
  • Logo de Recolecta
  • Logo del Observatorio I+D+i UPM
  • Logo de OpenCourseWare UPM