TweetSC: corrector de texto para Twitter

Moreno Vega, Javier (2018). TweetSC: corrector de texto para Twitter. Tesis (Master), E.T.S. de Ingenieros Informáticos (UPM).

Descripción

Título: TweetSC: corrector de texto para Twitter
Autor/es:
  • Moreno Vega, Javier
Director/es:
  • Corcho, Oscar
  • Rodríguez Doncel, Víctor
Tipo de Documento: Tesis (Master)
Título del máster: Inteligencia Artificial
Fecha: 2018
Materias:
Escuela: E.T.S. de Ingenieros Informáticos (UPM)
Departamento: Inteligencia Artificial
Licencias Creative Commons: Reconocimiento - Sin obra derivada - No comercial

Texto completo

[img]
Vista Previa
PDF (Document Portable Format) - Se necesita un visor de ficheros PDF, como GSview, Xpdf o Adobe Acrobat Reader
Descargar (774kB) | Vista Previa

Resumen

Esta memoria describe TweetSC, un corrector de texto para mensajes en español en Twitter. Debido a que los nuevos sistemas de comunicación han generado un uso diferente del idioma, ha surgido un problema en el análisis de textos. Entre todas las redes sociales este trabajo se centra en Twitter debido a las características que tiene. El objetivo principal de este trabajo es la creación de un corrector para tweets en español. El estado del arte sobre este tema no es muy amplio, y en espa~nol aún menos; los enfoques que se suelen seguir son los de normalización y adaptación de herramientas, aunque en los últimos a~nos ha surgido un nuevo enfoque basado en redes neuronales y vectores de palabras. Mi solución, a la que he llamado \Tweet Spell Checker" (TweetSC),consiste en un sistema basado en módulos que se ejecutan de forma secuencial, desde que entra el texto sin normalizar se va aplicando módulo a módulo hasta que se devuelve el texto normalizado. Los módulos construidos son: Tokenizador, Reglas de preproceso, Detector de palabras OOV (Out-Of-Vocabulary), generador de candidatos para cada OOV, ranking de candidatos y postproceso; además cada modulo implementa de forma interna varios métodos que se pueden quitar o añadir. La implementación se ha desarrollado en Java y se ha dividido en tres paquetes: tweetsccore (núcleo del sistema y que funciona como una biblioteca por sí sola), tweetscexecutable (paquete que genera un ejecutable jar para su uso desde línea de comandos) y tweetscweb (aplicación web 1). Los resultados se han comparado con los de Tweet-Nor 2013 [3]. He conseguido unos resultados de accurancy en general bajos pero con posibilidades de mejora y líneas futuras.---ABSTRACT---This dissertation describes TweetSC, a text corrector for Spanish messages on Twitter. Because the new communication systems have generated a different use of the language, a problem has arisen in the analysis of texts. Among all social networks, this work focuses on Twitter due to the characteristics it has. The main objective of this work is the creation of a corrector for tweets in Spanish. The state of the art on this subject is not very extensive, and in Spanish even less; the approaches that are usually followed are those of standardization and adaptation of tools, although in recent years a new approach based on neural networks and word vectors has emerged. My solution, which I have called \Tweet Spell Checker" (TweetSC), consists of a system based on modules that are executed sequentially, since the text enters without normalizing it is applied module to module until it is returned the normalized text. The built modules are: Tokenizer, Preprocessing rules, OOV (Out-Of-Vocabulary) word detector, generator of candidates for each OOV, ranking of candidates and post-processing; In addition, each module internally implements several methods that can be removed or added. The implementation has been developed in Java and has been divided into three packages: tweetsccore (core of the system and that works as a library by itself), tweetscexecutable (package that generates an executable jar for use from the command line) and tweetscweb (web Application 2)). The results have been compared with those of Tweet-Nor 2013 [3]. I have achieved generally low accurancy results but with possibilities for improvement and future lines.

Más información

ID de Registro: 52251
Identificador DC: http://oa.upm.es/52251/
Identificador OAI: oai:oa.upm.es:52251
Depositado por: Biblioteca Facultad de Informatica
Depositado el: 14 Sep 2018 12:19
Ultima Modificación: 14 Sep 2018 12:20
  • GEO_UP4
  • Open Access
  • Open Access
  • Sherpa-Romeo
    Compruebe si la revista anglosajona en la que ha publicado un artículo permite también su publicación en abierto.
  • Dulcinea
    Compruebe si la revista española en la que ha publicado un artículo permite también su publicación en abierto.
  • Recolecta
  • InvestigaM
  • Observatorio I+D+i UPM
  • OpenCourseWare UPM