Sistema de reconocimiento de comandos por voz basado en redes de neuronas LSTM

Vicente Cabero, Juan Manuel (2018). Sistema de reconocimiento de comandos por voz basado en redes de neuronas LSTM. Proyecto Fin de Carrera / Trabajo Fin de Grado, E.T.S.I. de Sistemas Informáticos (UPM), Madrid.

Descripción

Título: Sistema de reconocimiento de comandos por voz basado en redes de neuronas LSTM
Autor/es:
  • Vicente Cabero, Juan Manuel
Director/es:
  • Serradilla García, Francisco
Tipo de Documento: Proyecto Fin de Carrera/Grado
Grado: Grado en Ingeniería de Computadores
Fecha: Junio 2018
Materias:
Palabras Clave Informales: Redes neuronales Inteligencia artificial
Escuela: E.T.S.I. de Sistemas Informáticos (UPM)
Departamento: Inteligencia Artificial
Licencias Creative Commons: Reconocimiento - Sin obra derivada - No comercial

Texto completo

[img]
Vista Previa
PDF (Document Portable Format) - Se necesita un visor de ficheros PDF, como GSview, Xpdf o Adobe Acrobat Reader
Descargar (1MB) | Vista Previa
[img] Archivo comprimido ZIP (Anexos) - Acceso permitido solamente a usuarios en el campus de la UPM
Descargar (1MB)

Resumen

La Inteligencia Artificial ha experimentado un gran crecimiento durante los últimos años, gracias al aumento de la capacidad de cómputo y la aparición de herramientas que permiten realizar cálculos complejos de una forma más eficiente. Además, el auge de los smartphones ha permitido aumentar el volumen de datos generados por los usuarios, abriendo un abanico de nuevas posibilidades en cuanto a la aplicación de la Inteligencia Artificial en la electrónica de consumo. Una de estas aplicaciones son los asistentes virtuales, que permiten la ejecución de determinadas instrucciones mediante el reconocimiento de comandos por voz. Este proyecto tiene como objetivo el desarrollo de una Red de Neuronas Recurrente del tipo LSTM, capaz de reconocer 24 instrucciones, para comprobar la efectividad de las redes LSTM en el Reconocimiento del Habla (ASR); así como suponer la base para un futurible asistente virtual. El sistema tomará como entrada ficheros de audio en formato WAVE, realizará el preprocesado de la señalal acústica y extraerá los atributos de interés, que servirán como entrada para la red de neuronas. La salida de la red será un vector de 24 enteros, uno por cada clase, siendo todos ellos '0' salvo la clase predicha por la red con un mayor porcentaje de confianza, que tomará el valor '1'. El sistema interpretará este vector y mostrará por pantalla el nombre del fichero analizado, el comando que contiene y el comando predicho por la red. Abstract: Artificial Intelligence has experienced a huge growth in the last few years, thanks to the increase in computing power and the emergence of tools that allow complex calculations to be performed more eficiently. In addition, the rise of smartphones has increased the volume of data generated by users, opening up a range of new possibilities for the application of Artificial Intelligence in consumer electronics. Among these applications are virtual assistants, which allow the execution of certain instructions by voice command recognition. This project aims to develop a Recurrent Neural Network, specifically a LSTM network, capable of recognizing 24 instructions, to test the efectiveness of LSTM networks in Automatic Speech Recognition (ASR) and to provide the basis for a future virtual assistant. The system will take as input audio files in WAVE format, pre-process the acoustic signal and extract the features of interest, which will serve as input for the neural network. The output from the network will be a vector of 24 integers, one for each class, with all of them being '0' except the class predicted by the network with the highest percentage of confidence, which will take the value '1'. The system will interpret this vector and display the name of the analyzed file, the command it contains and the command predicted by the network.

Más información

ID de Registro: 51541
Identificador DC: http://oa.upm.es/51541/
Identificador OAI: oai:oa.upm.es:51541
Depositado por: Biblioteca Universitaria Campus Sur
Depositado el: 11 Jul 2018 05:31
Ultima Modificación: 11 Jul 2018 05:31
  • GEO_UP4
  • Open Access
  • Open Access
  • Sherpa-Romeo
    Compruebe si la revista anglosajona en la que ha publicado un artículo permite también su publicación en abierto.
  • Dulcinea
    Compruebe si la revista española en la que ha publicado un artículo permite también su publicación en abierto.
  • Recolecta
  • InvestigaM
  • Observatorio I+D+i UPM
  • OpenCourseWare UPM