Puntuación automática de textos transcritos desde voz en lengua española

Gálvez Jiménez, Laura (2019). Puntuación automática de textos transcritos desde voz en lengua española. Thesis (Master thesis), E.T.S. de Ingenieros Informáticos (UPM).

Description

Title: Puntuación automática de textos transcritos desde voz en lengua española
Author/s:
  • Gálvez Jiménez, Laura
Contributor/s:
  • Cardeñosa Lera, Jesús
Item Type: Thesis (Master thesis)
Masters title: Inteligencia Artificial
Date: 2019
Subjects:
Faculty: E.T.S. de Ingenieros Informáticos (UPM)
Department: Inteligencia Artificial
Creative Commons Licenses: Recognition - No derivative works - Non commercial

Full text

[thumbnail of TFM_LAURA_GALVEZ_JIMENEZ.pdf]
Preview
PDF - Requires a PDF viewer, such as GSview, Xpdf or Adobe Acrobat Reader
Download (972kB) | Preview

Abstract

El procesado de lenguaje natural es una de las áreas de la inteligencia artificial menos avanzadas debido a la complejidad y la diversidad de las lenguas existentes en el mundo, a pesar de que la interacción entre los humanos y las máquinas es cada vez mayor. Para que esta comunicación sea posible es necesario que los sistemas sean capaces de comprender y generar el lenguaje de forma correcta sin dar lugar a ambigüedades y, para ello, es muy importante que aprendan las reglas por las que se rige el lenguaje. En esta tesis se investigan las distintas técnicas de procesado del lenguaje natural con el fin de completar el significado de textos en español no puntuados a través de la restauración de los signos de puntuación necesarios. Se da una visión del estado actual de las reglas de puntuación en la lengua española y de las diversas aproximaciones aplicadas hasta el momento para la restauración de puntuación en textos escritos. Por otro lado, se ha implementado una solución basada en las técnicas de aprendizaje profundo estudiadas y capaz de puntuar textos escritos en español, resolviendo así posibles ambigüedades de esta lengua.---ABSTRACT---Natural language processing is one of the least advanced areas of artificial intelligence due to language complexity and diversity, in spite of the fact that interaction between humans and machines is greater and greater. To make this communication possible, it’s necessary to have sistems with the ability of understanding and generating language in a good way without provoking ambiguity. Therefore, it’s very important for these sistems to learn all language rules. In this thesis, we research different natural language processing techniques with the aim of complete the meaning of unpunctuated texts written in spanish by restoring the suitable punctuation marks. We give a view of the current state of spanish punctuation rules and the diverse approaches applied so far for restoring punctuation in written texts. On the other hand, we have implemented a solution which is based on the studied deep learning techniques and able to punctuate spanish written texts, solving possible ambiguities of this language.

More information

Item ID: 56268
DC Identifier: https://oa.upm.es/56268/
OAI Identifier: oai:oa.upm.es:56268
Deposited by: Biblioteca Facultad de Informatica
Deposited on: 03 Sep 2019 08:04
Last Modified: 03 Sep 2019 08:04
  • Logo InvestigaM (UPM)
  • Logo GEOUP4
  • Logo Open Access
  • Open Access
  • Logo Sherpa/Romeo
    Check whether the anglo-saxon journal in which you have published an article allows you to also publish it under open access.
  • Logo Dulcinea
    Check whether the spanish journal in which you have published an article allows you to also publish it under open access.
  • Logo de Recolecta
  • Logo del Observatorio I+D+i UPM
  • Logo de OpenCourseWare UPM