TweetSC: corrector de texto para Twitter

Moreno Vega, Javier (2018). TweetSC: corrector de texto para Twitter. Thesis (Master thesis), E.T.S. de Ingenieros Informáticos (UPM).

Description

Title: TweetSC: corrector de texto para Twitter
Author/s:
  • Moreno Vega, Javier
Contributor/s:
Item Type: Thesis (Master thesis)
Masters title: Inteligencia Artificial
Date: 2018
Subjects:
Faculty: E.T.S. de Ingenieros Informáticos (UPM)
Department: Inteligencia Artificial
Creative Commons Licenses: Recognition - No derivative works - Non commercial

Full text

[thumbnail of TFM_JAVIER_MORENO_VEGA.pdf]
Preview
PDF - Requires a PDF viewer, such as GSview, Xpdf or Adobe Acrobat Reader
Download (774kB) | Preview

Abstract

Esta memoria describe TweetSC, un corrector de texto para mensajes en español en Twitter. Debido a que los nuevos sistemas de comunicación han generado
un uso diferente del idioma, ha surgido un problema en el análisis de textos. Entre
todas las redes sociales este trabajo se centra en Twitter debido a las características
que tiene. El objetivo principal de este trabajo es la creación de un corrector
para tweets en español. El estado del arte sobre este tema no es muy amplio, y en
espa~nol aún menos; los enfoques que se suelen seguir son los de normalización y
adaptación de herramientas, aunque en los últimos a~nos ha surgido un nuevo enfoque
basado en redes neuronales y vectores de palabras. Mi solución, a la que he
llamado \Tweet Spell Checker" (TweetSC),consiste en un sistema basado en módulos
que se ejecutan de forma secuencial, desde que entra el texto sin normalizar
se va aplicando módulo a módulo hasta que se devuelve el texto normalizado. Los
módulos construidos son: Tokenizador, Reglas de preproceso, Detector de palabras
OOV (Out-Of-Vocabulary), generador de candidatos para cada OOV, ranking de
candidatos y postproceso; además cada modulo implementa de forma interna varios
métodos que se pueden quitar o añadir. La implementación se ha desarrollado en
Java y se ha dividido en tres paquetes: tweetsccore (núcleo del sistema y que funciona
como una biblioteca por sí sola), tweetscexecutable (paquete que genera un
ejecutable jar para su uso desde línea de comandos) y tweetscweb (aplicación web
1). Los resultados se han comparado con los de Tweet-Nor 2013 [3]. He conseguido
unos resultados de accurancy en general bajos pero con posibilidades de mejora y
líneas futuras.---ABSTRACT---This dissertation describes TweetSC, a text corrector for Spanish messages on
Twitter. Because the new communication systems have generated a different use of
the language, a problem has arisen in the analysis of texts. Among all social networks,
this work focuses on Twitter due to the characteristics it has. The main objective of
this work is the creation of a corrector for tweets in Spanish. The state of the art on
this subject is not very extensive, and in Spanish even less; the approaches that are
usually followed are those of standardization and adaptation of tools, although in
recent years a new approach based on neural networks and word vectors has emerged.
My solution, which I have called \Tweet Spell Checker" (TweetSC), consists of a
system based on modules that are executed sequentially, since the text enters without
normalizing it is applied module to module until it is returned the normalized text.
The built modules are: Tokenizer, Preprocessing rules, OOV (Out-Of-Vocabulary)
word detector, generator of candidates for each OOV, ranking of candidates and
post-processing; In addition, each module internally implements several methods
that can be removed or added. The implementation has been developed in Java and
has been divided into three packages: tweetsccore (core of the system and that works
as a library by itself), tweetscexecutable (package that generates an executable jar
for use from the command line) and tweetscweb (web Application 2)). The results
have been compared with those of Tweet-Nor 2013 [3]. I have achieved generally low
accurancy results but with possibilities for improvement and future lines.

More information

Item ID: 52251
DC Identifier: https://oa.upm.es/52251/
OAI Identifier: oai:oa.upm.es:52251
Deposited by: Biblioteca Facultad de Informatica
Deposited on: 14 Sep 2018 12:19
Last Modified: 14 Sep 2018 12:20
  • Logo InvestigaM (UPM)
  • Logo GEOUP4
  • Logo Open Access
  • Open Access
  • Logo Sherpa/Romeo
    Check whether the anglo-saxon journal in which you have published an article allows you to also publish it under open access.
  • Logo Dulcinea
    Check whether the spanish journal in which you have published an article allows you to also publish it under open access.
  • Logo de Recolecta
  • Logo del Observatorio I+D+i UPM
  • Logo de OpenCourseWare UPM