Desarrollo de una herramienta para la conversión de voz a texto

Moya Córdoba, Diego (2021). Desarrollo de una herramienta para la conversión de voz a texto. Proyecto Fin de Carrera / Trabajo Fin de Grado, E.T.S. de Ingenieros Informáticos (UPM), Madrid, España.

Description

Title: Desarrollo de una herramienta para la conversión de voz a texto
Author/s:
  • Moya Córdoba, Diego
Contributor/s:
  • García Pedrero, Ángel Mario
Item Type: Final Project
Degree: Grado en Ingeniería Informática
Date: January 2021
Subjects:
Faculty: E.T.S. de Ingenieros Informáticos (UPM)
Department: Arquitectura y Tecnología de Sistemas Informáticos
Creative Commons Licenses: Recognition - No derivative works - Non commercial

Full text

[img]
Preview
PDF - Requires a PDF viewer, such as GSview, Xpdf or Adobe Acrobat Reader
Download (908kB) | Preview

Abstract

Este trabajo tiene como objetivo crear una aplicación funcional, capaz de convertir un audio de conversación en texto mediante su transcripción, es decir, un proceso speech-to-text. Durante el desarrollo del mismo, se realiza una investigación del estado del arte de los métodos para convertir la voz a texto, obteniendo los conocimientos y recursos fundamentales sobre los que se basa este proyecto. Como resultado de esta investigación, se escoge DeepSpeech como herramienta para la realización del trabajo. Una vez seleccionada la herramienta, se entrena un modelo para efectuar de manera óptima el proceso speech-to-text. Debido a la gran cantidad de recursos necesarios para el entrenamiento de una red neuronal, se emplea el servicio cloud Colab, el cual, da acceso a gratuito a medios como GPUs. Seguidamente, se configura el entorno y se instala DeepSpeech. En este punto del trabajo, se estudia el marco teórico de DeepSpeech para entender el funcionamiento de la red neuronal en la que se basa, y poder comprender el proceso de entrenamiento del modelo. Para llevar a cabo este proceso, se buscan datasets de audios para alimentar el algoritmo de entrenamiento. Una vez que se tienen los datos, recopilados de la base de datos del proyecto Common Voice, se preparan para que la estructura de los mismos sea acorde a los requerimientos de DeepSpeech. A continuación, se describen los flags que se emplean en el entrenamiento y se visualiza el comando introducido en Colab para realizar su implementación. Con el fin de visualizar las fases de entrenamiento, validación y test de los datos, se muestran y se explican salidas reales del algoritmo. El modelo que se obtiene del proceso de entrenamiento no es óptimo debido a que el tiempo necesario para lograr un modelo funcional es mayor que el tiempo disponible para el desarrollo proyecto, por lo que, para implementar la API, se decide utilizar un modelo preentrenado de DeepSpeech. Esta API se desarrolla en Python y logra transcribir los archivos de voz a texto, cumpliendo, de esta manera, el objetivo general de este trabajo. Finalmente, se ofrece una valoración de los resultados, concluyendo que el entrenamiento de una red neuronal, en este caso, para conseguir el reconocimiento de audio, es un proceso complejo al que hay que dedicarle tiempo para conseguir un resultado óptimo. Otra conclusión que se obtiene es que la tecnología basada en el proceso speech-to-text tiene mucho potencial y, en la actualidad, está siendo explotada por grandes empresas del sector tecnológico.---ABSTRACT---This work aims to create a functional application, capable of converting conversational audio into text by transcribing it, that is, a speech-to-text process. During its development, an investigation is carried out on the state of the art of the methods to convert speech to text, obtaining the fundamental knowledge and resources on which this project is based. As a result of this research, DeepSpeech is chosen as the tool to carry out the work. Once the tool is selected, a model is trained to optimally carry out the speechto-text process. Due to the large amount of necessary resources for training a neural network, Colab cloud service is used, which gives free access to resources such as GPUs. Next, the environment is configured and DeepSpeech is installed. At this point of the work, the theoretical framework of DeepSpeech is studied to understand the operation of the neural network on which it is based, and to understand the training process of the model. To carry out this process, audio datasets are searched to feed the training algorithm. Once you have the data, collected from the Common Voice project database, it is prepared so that its structure is in accordance with the requirements of DeepSpeech. The flags used in the training are described below and the command entered in Colab to carry out its implementation is displayed. In order to visualize the training, validation and testing phases of the data, actual outputs of the algorithm are shown and explained. The model obtained from the training process is not optimal because the time required to achieve a functional model is greater than the time available for project development, so, to implement the API, it is decided to use a pre-trained model of DeepSpeech. This API is developed in Python and manages to transcribe files from speech to text, thus fulfilling the general objective of this work. Finally, an assessment of the results is offered, concluding that the training of a neural network, in this case, to achieve audio recognition, is a complex process that must be spent time to achieve an optimal result. Another conclusion that is obtained is that technology based on the speech-to-text process has a lot of potential and, at present, is being exploited by large companies in the technology sector.

More information

Item ID: 66298
DC Identifier: https://oa.upm.es/66298/
OAI Identifier: oai:oa.upm.es:66298
Deposited by: Biblioteca Facultad de Informatica
Deposited on: 08 Mar 2021 09:13
Last Modified: 08 Mar 2021 09:13
  • Logo InvestigaM (UPM)
  • Logo GEOUP4
  • Logo Open Access
  • Open Access
  • Logo Sherpa/Romeo
    Check whether the anglo-saxon journal in which you have published an article allows you to also publish it under open access.
  • Logo Dulcinea
    Check whether the spanish journal in which you have published an article allows you to also publish it under open access.
  • Logo de Recolecta
  • Logo del Observatorio I+D+i UPM
  • Logo de OpenCourseWare UPM