Desarrollo de un reconocedor de locutor basado en i-Vectores

Márquez Gordillo, Samuel (2017). Desarrollo de un reconocedor de locutor basado en i-Vectores. Proyecto Fin de Carrera / Trabajo Fin de Grado, E.T.S.I. y Sistemas de Telecomunicación (UPM), Madrid.

Description

Title: Desarrollo de un reconocedor de locutor basado en i-Vectores
Author/s:
  • Márquez Gordillo, Samuel
Contributor/s:
  • Gutiérrez Arriola, Juana María
Item Type: Final Project
Degree: Grado en Ingeniería de Sonido e Imagen
Date: 4 April 2017
Subjects:
Freetext Keywords: Biometría Reconocimiento de la palabra
Faculty: E.T.S.I. y Sistemas de Telecomunicación (UPM)
Department: Teoría de la Señal y Comunicaciones
Creative Commons Licenses: Recognition - No derivative works - Non commercial

Full text

[img]
Preview
PDF - Requires a PDF viewer, such as GSview, Xpdf or Adobe Acrobat Reader
Download (2MB) | Preview
[img] Archive (ZIP) (Anexos) - Users in campus UPM only
Download (2MB)

Abstract

Desde sus inicios, el ser humano ha buscado la manera de caracterizar y catalogar el entorno que le rodea, a fin de conocerlo en su totalidad, entenderlo y ser capaz de ordenarlo. Toda materia posee sus propias características, y todo ser vivo, compuesto de esa materia, puede ser diferenciado de forma inequívoca. Desde la altura y el tamaño de los rasgos faciales, hasta los valles y las crestas de la huella dactilar, la biometría se ha desarrollado con el fin de poder identificar a un individuo por los patrones que le diferencian del resto: sus características personales. De esta forma, se pretende que un sistema informático capte y procese lo que para el ser humano es un conjunto de datos sensoriales y, como el ser humano, sea capaz de interpretar y reconocer esos datos. El reconocimiento de locutor es una ramificación de la biometría, que tiene por objetivo identificar o verificar, con la mayor exactitud posible, la identidad de un sujeto a través de las características de su voz. Esto es posible debido al complejo aparato fonador que nos permitir modelar el sonido que emitimos por nuestra boca, y cuyas propiedades únicas -en los pulmones, bronquios, diafragma, tráquea, laringe, cuerdas vocales, cavidad nasal, etc.- son determinantes para hacer la voz distinguible entre individuos. El objetivo del Proyecto de Fin de Grado que se extiende en estas hojas es el de aplicar parte de los conocimientos de los que se dispone acerca del habla humana para reconocer a un individuo previamente modelado entre una base de datos de varias decenas de ellos. La metodología en el reconocimiento de voz vive a día de hoy una gran expansión, con procesos ampliamente extendidos por su reconocida precisión. En el presente proyecto se ha pretendido unir la más que probada extracción de características a través de coeficientes Mel-Cepstrum con los recientes algoritmos de clasificación por vectores identidad y análisis discriminante lineal probabilístico. Para tal fin, empleando como herramienta principal el software MATLAB, de MathWorks Inc., se ha diseñado un prototipo de sistema de reconocimiento de voz que desarrolla la extracción de características y adapta algoritmos de detección de voz y de clasificación con vectores identidad. Complementando al diseño y desarrollo del prototipo del reconocedor, se ha grabado una base de datos con voces de hombres y mujeres adultos, que sirve para entrenar el sistema, para testearlo y para sacar resultados y conclusiones. La base de datos se compone de 40 locutores, que han sido grabados durante una lectura, en tramos de entre 9 y 12 segundos, en entornos silenciosos y empleando el mismo equipo en todas las sesiones. Si bien las conclusiones expuestas al final del documento se obtienen con un conjunto de determinados valores para los parámetros empleados a lo largo del código, se permite a un futuro usuario la opción de modificar estos valores y sacar sus propios resultados. Se incluye, además, un ligero material de ayuda que pretende dar directrices de cómo el funciona el sistema y cómo debe interactuarse con él. Sin embargo, el autor asume que el usuario tiene conocimientos previos en la materia y no necesita de instrucción en MATLAB ni en las características de su lenguaje. Abstract: Since the beginning, the human being has looked for the way to characterize and catalog the environment that surrounds him, in order to know it in its totality, to understand it and to be able to sort it. All matter has its own characteristics, and every living being, composed of that matter, can be differentiated unequivocally. From the height and size of the facial features to the valleys and ridges of the fingerprint, biometrics has been developed in order to identify an individual by patterns that differentiate him from the rest: the personal characteristics. In this way, it is intended that a computer system captures and processes what for the human being is a set of sensory data and, as the human being, is able to interpret and recognize that data. The speaker recognition is a branch of biometry, which aims to identify or verify, as accurately as possible, the identity of a subject through the characteristics of his voice. This is possible due to the complex speech apparatus that allows us to model the sound we emit from our mouth, and whose unique properties –in the lungs, bronchi, diaphragm, trachea, larynx, vocal cords, nasal cavity, etc.– are determinants to make distinguishable the voice between individuals. The objective of the End-of-Grade Project that extends in these pages is to apply part of the knowledge that is available about human speech to recognize an individual previously modeled among a database of several dozens of them. The methodology in speech recognition is nowadays a great expansion, with processes widely extended by its recognized precision. In the present project, it has been tried to join the more than proven extraction of characteristics through Mel- Cepstrum coefficients with the recent algorithms of classification by identity vectors and linear discriminant probabilistic analysis. To this end, using MathWorks Inc.'s MATLAB software as a main tool, a prototype voice recognition system has been designed that develops the extraction of characteristics and adapts algorithms of voice detection and classification with identity vectors. Complementing the design and development of the prototype of the recognizer, a database has been recorded with voices of adult men and women, which serves to train the system, to test it and to draw some results and conclusions. The database is composed of 40 speakers, which have been recorded during a reading, in stretches of 9 to 12 seconds, in quiet environments and using the same equipment in all sessions. Although the conclusions presented at the end of the document are obtained with a set of certain values for the parameters used throughout the code, a future user is allowed to modify these values and to obtain their own results. Also, a small help material is included, which aims to give guidelines on how the system works and how it should be interacted with. However, the author assumes that the user has previous knowledge in the matter and does not need lessons in MATLAB nor in the characteristics of their language.

More information

Item ID: 52635
DC Identifier: http://oa.upm.es/52635/
OAI Identifier: oai:oa.upm.es:52635
Deposited by: Biblioteca Universitaria Campus Sur
Deposited on: 16 Oct 2018 09:05
Last Modified: 16 Oct 2018 09:05
  • Logo InvestigaM (UPM)
  • Logo GEOUP4
  • Logo Open Access
  • Open Access
  • Logo Sherpa/Romeo
    Check whether the anglo-saxon journal in which you have published an article allows you to also publish it under open access.
  • Logo Dulcinea
    Check whether the spanish journal in which you have published an article allows you to also publish it under open access.
  • Logo de Recolecta
  • Logo del Observatorio I+D+i UPM
  • Logo de OpenCourseWare UPM