Abstract
El objetivo de este proyecto es el estudio de la eficacia de un clasificador basado en redes neuronales artificiales para la discriminación de voz patológica cuando la señal de voz a sufrido la distorsión de un códec de voz, en este caso el códec GSM Full rate, mediante la introducción de parámetros MFCC en la red neuronal artificial.
El uso del codificador GSM Full Rate para trasmitir voz implica una distorsión inherente a su diseño pero también tenemos que tener en cuenta una predistorsión necesaria ya que tenemos que ajustar la frecuencia de muestreo y el número de bits de cuantificación que requiere la entrada al codificador.
Las grabaciones de voz disponibles están muestreadas a una frecuencia de 25 kHz y tienen 16 bits por muestra. La entrada al codificador requiere que la señal de voz este muestreada a 8 kHz y tengan 13 bit por muestra. Después hay que tener en cuenta el efecto de codificar y decodificar la señal. Valoraremos tanto los cambios a los que se ve sometida la señal hasta llegar a la entrada del codificador como la distorsión que debe sufrir al ser sometida al codificador de voz GSM Full Rate.
Este análisis lo haremos parametrizando la voz mediante coeficientes cepstrales en la escala de Mel (MFCC), ya que se ha demostrado que son robustos contra distintas clases de distorsión. Estos parámetros los introduciremos en un clasificador consistente en una red neuronal artificial de la cual obtendremos unos resultados que nos permitan valorar la influencia del codificador en la detección automática de patología de voz.
ABSTRACT.
The objective of this project is the study of the efficiency of a classifier based on artificial neural networks for pathological voice discrimination when the speech signal
has undergone the distortion of a speech codec, in this case the GSM FR codec, through introducing MFCC parameters in the artificial neural network.
The use GSM Full Rate codec to transmit speech implies an inherent distortion in its design but also a predistortion needed to adjust the sampling frequency of the signal and the number of quantization bits which requires the input to the codec.
Available speech recordings are sampled at a frequency of 25 kHz and have 16 bits per sample. The input to the GSM Full Rate codec requires that the speech signal is sampled at 8 kHz and have 13 bits per sample. Then we have to take into account the effect of encoding and decoding of speech signal. We will evaluate both the changes to which the speech signal is subjected until reaching the input of the encoder as the distortion that must experienced when is subjected to the encoder GSM Full Rate.
For the herein reported study, speech signal has been parameterized by means of the Mel frequency cepstral coefficients (MFCC), since they have been shown to be
fairly robust against different kinds of distortion. These parameters are introduced in a classifier consisting in an artificial neural network from which we obtain results that
allow us to evaluate the influence of the encoder in the automatic detection of speech pathology.