Factor: web repository of transcribe online classes

Álvarez Fernández, Pablo Ángel (2020). Factor: web repository of transcribe online classes. Thesis (Master thesis), E.T.S. de Ingenieros Informáticos (UPM).

Description

Title: Factor: web repository of transcribe online classes
Author/s:
  • Álvarez Fernández, Pablo Ángel
Contributor/s:
  • Hajek, Jeremy
  • Zanardini, Damiano
Item Type: Thesis (Master thesis)
Masters title: Ingeniería Informática
Date: May 2020
Subjects:
Freetext Keywords: Speech-To-Text; Algorithmos; FLOSS; Kubernetes; DeepSpeech; Cloud; Subtítulos; Reconocimiento automático de voz; Test Suites; Full-stack; Node; Angular; Mongo; Google Oauth 2.0; AWS; Containers; Pod; Replicas; Docker; Algorithms; FLOSS; Subtitles; Automatics speech recognition
Faculty: E.T.S. de Ingenieros Informáticos (UPM)
Department: Inteligencia Artificial
Creative Commons Licenses: Recognition - No derivative works - Non commercial

Full text

[img]
Preview
PDF - Requires a PDF viewer, such as GSview, Xpdf or Adobe Acrobat Reader
Download (4MB) | Preview

Abstract

Con la proliferación de servicios de voz a texto basados en la nube, de los principales proveedores Cloud, así como la aparición de varios proyectos de código abierto, puede resultar difícil decidir por dónde empezar y cómo hacer uso de estas tecnologías relacionadas con el manejo de artefactos de grabación que son el subproducto de la educación en línea. El hecho de que haya tantos recursos disponibles significa que las barreras informáticas y técnicas para aplicar los algoritmos de reconocimiento de voz han disminuido hasta el punto de dejar de ser un factor en la decisión de utilizar los servicios de voz a texto. Otras barreras como el precio, el tiempo y el acceso al código fuente de los servicios (libertad de software) pueden ahora tenerse en cuenta en la decisión de qué plataforma utilizar. El presente caso de estudio es el comienzo de la elaboración de un conjunto de pruebas y una guía para comparar las bibliotecas de voz a texto y su precisión inmediata, integrando al mismo tiempo esas bibliotecas en una sola aplicación de prueba. Nuestro conjunto de pruebas inicial emplea dos modelos: un modelo basado en herramienta cloud que emplea AWS S3 usando AWS Transcribe, mientras que el modelo de código abierto ejecutado en la red interna se basa en DeepSpeech de Mozilla. Presentamos nuestros hallazgos y recomendaciones basados en los criterios descubiertos. Además, más allá de las comparaciones de las bibliotecas de Voz a Texto, también investigamos los artefactos producidos por la alta calidad de Voz a Texto y examinamos e informamos de las nuevas características disponibles en relación con las transcripciones de texto. La decisión basada en nuestros requisitos se utilizará para desplegar un sistema educativo completo. Este sistema tiene como objetivo desarrollar un servicio que facilite el aprendizaje de los estudiantes y ayude a los profesores a crear publicaciones derivadas de sus propias clases, mejorando el aprendizaje en general. Con el fin de entregar este conjunto de pruebas, también llevamos a cabo una investigación sobre las últimas tecnologías de desarrollo web para lograr, con énfasis en la seguridad, producir un proceso de desarrollo fiable y seguro y proporcionar un acceso abierto a esta prueba de concepto para su posterior prueba y desarrollo. Finalmente, se investigará la tecnología de Kubernetes para crear un cluster y organizar los servicios como un único producto automáticamente auto escalable.---ABSTRACT---With a proliferation of Cloud based Speech-to-Text Services, from the major Cloud providers as well as several Opensource Speech-to-Text projects available, it can be difficult to decide where to start and how to make use of these technologies relating to the handling of recording artifacts that are the byproduct of Online Education. The fact that so many resources are available means that the computing, and technical barriers for applying speech recognition algorithms has decreased to the point of being a non-factor in the decision to use Speech-to-Text services. Other barriers such as price, time, and access to the services source code (software freedom) now can be factored into the decision of which platform to use. This case study provides a beginning to developing a test-suite and guide to compare Speech-to-Text libraries and their out of the box accuracy while integrating these libraries into a single test application. Our initial test suite employs two models a Cloud model employing AWS S3 using AWS Transcribe while the on-premises Opensource model relies on Mozilla’s DeepSpeech. We present our findings and recommendations based on the criteria discovered. Moreover, beyond comparisons of Speech-to-Text libraries we also investigate the artifacts produced by high quality Speech-to-Text and examine and report what new features become available in relation to text transcripts. The decision based on our requirements will be used to deploy a full-stack educational system. This system aims to develop a service that will facilitate student learning and help teachers create publications derived from their own classes, improving learning in general. In order to deliver this test-suite, we also conducted research into the latest web development technologies to accomplish with emphasis on the security in order to produce a reliable and secure development process and to provide open access to this proof of concept for further testing and development. Finally, the Kubernetes technology will be investigated to create a cluster and organize the services as an auto-scale single product.

More information

Item ID: 65413
DC Identifier: http://oa.upm.es/65413/
OAI Identifier: oai:oa.upm.es:65413
Deposited by: Biblioteca Facultad de Informatica
Deposited on: 13 Nov 2020 13:22
Last Modified: 13 Nov 2020 13:22
  • Logo InvestigaM (UPM)
  • Logo GEOUP4
  • Logo Open Access
  • Open Access
  • Logo Sherpa/Romeo
    Check whether the anglo-saxon journal in which you have published an article allows you to also publish it under open access.
  • Logo Dulcinea
    Check whether the spanish journal in which you have published an article allows you to also publish it under open access.
  • Logo de Recolecta
  • Logo del Observatorio I+D+i UPM
  • Logo de OpenCourseWare UPM