Desarrollo de un sistema de reconocimiento de voz

Monasterio Solar, Javier Ignacio (2017). Desarrollo de un sistema de reconocimiento de voz. Proyecto Fin de Carrera / Trabajo Fin de Grado, E.T.S.I. y Sistemas de Telecomunicación (UPM), Madrid.

Description

Title: Desarrollo de un sistema de reconocimiento de voz
Author/s:
  • Monasterio Solar, Javier Ignacio
Contributor/s:
  • Gutiérrez Arriola, Juana María
Item Type: Final Project
Degree: Grado en Ingeniería de Sonido e Imagen
Date: 11 July 2017
Subjects:
Freetext Keywords: Reconocimiento de la palabra Red Neuronal Artificial
Faculty: E.T.S.I. y Sistemas de Telecomunicación (UPM)
Department: Teoría de la Señal y Comunicaciones
Creative Commons Licenses: Recognition - No derivative works - Non commercial

Full text

[img]
Preview
PDF - Requires a PDF viewer, such as GSview, Xpdf or Adobe Acrobat Reader
Download (7MB) | Preview
[img] Archive (ZIP) (Anexos 1) - Users in campus UPM only
Download (37kB)
[img] Archive (ZIP) (Anexos 2) - Users in campus UPM only
Download (55MB)
[img] Archive (ZIP) (Anexos 3) - Users in campus UPM only
Download (51MB)

Abstract

Este proyecto consiste en el desarrollo de un Sistema de Reconocimiento de Voz capaz de distinguir y reconocer un conjunto de palabras pertenecientes a un diccionario dado. De acuerdo con lo anterior, el sistema que se pretende desarrollar es de tipo closed-set (la palabra a reconocer siempre estará incluida en el diccionario del sistema). Adicionalmente, sólo se considerará un hablante, es decir, se espera que el sistema lleve a cabo sus operaciones sobre las locuciones de una única persona. El desarrollo de este proyecto, y la gran mayoría de aspectos que se tratan en él, tienen también como principales objetivos analizar y documentar los fundamentos de un sistema de reconocimiento del habla, así como también diseñar, proyectar e implementar un sistema de adquisición de datos que comprenda desde el transductor hasta el software de procesado y construcción de una base de datos para el entrenamiento de una red neuronal. Como se ha mencionado anteriormente, otro de los objetivos principales de este proyecto es el de crear y entrenar una red neuronal artificial según una base de datos relativamente pequeña, implementando y documentando las herramientas necesarias para que el sistema pueda reconocer con éxito las palabras dentro del conjunto cerrado establecido. Este trabajo está dirigido en general a cualquier persona con unos conocimientos de los conceptos fundamentales del procesado digital de la señal y del modelo de producción del habla humana, así como también de matemática y estadística, necesarios para comprender los resultados y conclusiones, y que estén interesados en una introducción de los fundamentos de la Inteligencia Artificial y las Redes Neuronales Artificiales enfocadas al Reconocimiento Automático del Habla. El desarrollo de la gran mayoría de este trabajo se ha realizado en MatLab. Si bien no son estrictamente necesarios unos conocimientos avanzados de esta herramienta, es recomendable el manejo previo de la misma para poder entender las implementaciones realizadas con soltura. La principal razón de haber elegido la implementación de una Red Neuronal para el desarrollo de este proyecto es el gran crecimiento que ha tenido el campo de la Inteligencia Artificial estos últimos años y las grandes dudas que suscita en el presente. Se ha buscado, por tanto, proporcionar un marco de referencia introductorio para todo aquel que quiera iniciar unos estudios dedicados al campo de la inteligencia artificial, siendo esta faceta del proyecto una de las principales motivaciones para su desarrollo. Se advierte en este punto al lector que el carácter de este documento, en relación con los conceptos ya mencionados de Inteligencia Artificial y Redes Neuronales Artificiales, es meramente introductorio, es decir, aquí el lector podrá encontrar un punto de partida para realizar estudios e investigaciones relacionadas con esta materia, pero no encontrará un desarrollo profundo y exhaustivo de la misma. Sí que encontrará referencias a otros textos que pueden ser de utilidad y cuyos contenidos están estrechamente relacionados con el desarrollo de este trabajo. En este trabajo también se ha dedicado un pequeño espacio para aquellos lectores que buscan ideas sobre posibles desarrollos, y que incluyen conceptos sobre Procesado Digital de la Señal, Reconocimiento de Patrones, Reconocimiento Automático del Habla, Redes Neuronales Artificiales e Inteligencia Artificial. Estas ideas y propuestas sobre posibles desarrollos futuros han surgido a lo largo del desarrollo de este trabajo y pretenden ampliar, mejorar y completar el sistema que se ha propuesto. Abstract: This project is focused on the development of a Voice Recognition System in order to recognize a set of words belonging to a given dictionary previously defined. According to this, the system would be a closed-set one (the word to be recognized is always included in the system dictionary). In addition, only one speaker is considered, that is, the system will carry out its operations on a single person records. The main aim of this work is to analyze and document the fundamentals of a speech recognition system, as well as to design and implement a data acquisition system, which involves from the transducer to the processing software and the database construction for the Neural Network training process. As mentioned above, another of the main objectives of this project is to create an Artificial Neural Network according to a relatively small database, implementing and documenting the necessary tools so that the system will recognize the words within the closed-set dictionary. This work is generally aimed to anyone with some knowledge of digital signal processing and its fundamental concepts and human expression production model, as well as necessary for results and conclusions understanding. Those who are interested in an introduction to the fundamentals of Artificial Intelligence and Artificial Neural Networks focused on Automatic Speech Recognition will also found an interesting point of view in this work. The development of the system comprise MatLab previous knowledge. Although there is no advanced knowledge needed, a basic understanding is advisable in order to make the implementations clear. The main reason for choosing the implementation of a Neural Network for the development of this project is the great growth in the field of Artificial Intelligence in recent years and the great doubts that arise in the present. It has been sought, therefore, to provide an introductory reference frame for anyone who wants to start artificial intelligence studies. At this point the reader is warned that the character of this document, in relation to the concepts and development of Artificial Intelligence and Artificial Neural Networks. This work is merely introductory, that is to say, here the reader can find a starting point for studies and research related to this field, but there is not a deep and comprehensive development of theory. References to other texts that may be useful and whose contents are closely related to the development of this work could be found in this text. In this work, a small space has also been dedicated for those readers who are looking for ideas about possible developments, and that includes concepts on Digital Signal Processing, Pattern Recognition, Automatic Speech Recognition, Artificial Neural Networks and Artificial Intelligence. These ideas and proposals on possible future developments have arisen throughout the development of this work and are aimed to expand, improve and complete the system that has been proposed here.

More information

Item ID: 52706
DC Identifier: http://oa.upm.es/52706/
OAI Identifier: oai:oa.upm.es:52706
Deposited by: Biblioteca Universitaria Campus Sur
Deposited on: 22 Oct 2018 05:27
Last Modified: 22 Oct 2018 05:27
  • Logo InvestigaM (UPM)
  • Logo GEOUP4
  • Logo Open Access
  • Open Access
  • Logo Sherpa/Romeo
    Check whether the anglo-saxon journal in which you have published an article allows you to also publish it under open access.
  • Logo Dulcinea
    Check whether the spanish journal in which you have published an article allows you to also publish it under open access.
  • Logo de Recolecta
  • Logo del Observatorio I+D+i UPM
  • Logo de OpenCourseWare UPM