Citation
Moreu Rubio, Roberto
(2016).
Prototipo de sistema de detección de tripletas en R para
Text Mining.
Proyecto Fin de Carrera / Trabajo Fin de Grado, E.T.S. de Ingenieros Informáticos (UPM), Madrid, España.
Abstract
El mundo de la minería de texto está poniéndose de moda de una manera estrepitosa
debido a la cantidad de información contenida en textos que antes se pensaba no se
podía extraer automáticamente. Esto junto con la creciente utilización de redes sociales
y medios por los que compartir información han hecho de la minería de texto un campo
en alto desarrollo, mediante el cual se puede extraer información realmente útil en un
sinfín de ámbitos.
En el momento existe un gran abanico de técnicas comprendidas en la minería de
texto, como el análisis de sentimientos, extracción y clasificación de temas y el reconocimiento
de patrones. Gracias a este tipo de técnicas se hace posible automatizar
o semi-automatizar procesos como filtrar spam en el correo, hacer recomendaciones en
tiendas online, etiquetar documentos según su contenido, detectar casos de fraude o ayudar
a luchar contra la ciberdelincuencia, entre muchos otros. Es por ello que la minería
de textos tiene sin duda un futuro prometedor.
Este trabajo documenta el desarrollo de una herramienta de minería de texto dedicada
a la detección de estructuras Sujeto + Verbo + Objeto directo, también denominadas
tripletas. Esta detección permite sacar ideas generales de un documento, resaltando
las acciones y las entidades relacionadas en ellas dentro de un texto, lo que se podría
interpretar como un resumen. A esta herramienta se le ha a~nadido además un módulo
de clasificación mediante el cual dada una serie de frases y un ámbito, se puede saber
cuál de esas frases es la más relevante.
A pesar de la dificultad de trabajar con el lenguaje natural se han obtenido unos resultados
prometedores que podrían sentar las bases de un paquete de detección de tripletas
para R. Aunque ciertas mejoras serían necesarias.---ABSTRACT---The world of text mining is catching on due to the amount of information contained
in texts that was previously thought to be impossible to extract automatically. This,
together with the ever increasing use of social networks and means of information sharing
have made text mining a field in rapid development, through which it is possible to
extract very useful information in a variety of areas.
At the moment there is a wide range of techniques involved in text mining, such as
sentiment analysis, topic extraction and classification, and pattern recognition. Thanks
to these kind of techniques it now becomes possible to automate or semi-automate
processes like filtering email spam, making online shoping recommendations, tagging
documents depending on their contents, detecting fraud, or helping to fight cybercrime,
as well as many others. That is why text mining has with no doubt a promising future.
This paper documents the development of a text mining tool dedicated to the detection
of Subject + Verb + Direct object structures in sentences, also known as triplets. This
detection allows drawing general ideas of a document by highlighting actions and the
entities related in them within the text, which could be interpreted as a summary. This
tool has also been added a classification module whereby given a series of sentences and
a scope it is possible to know which of the sentences is the most relevant.
Despite the dificulty of working with natural language the tool has returned very promising
results that could form the basis of a triplet detection library in R. Although some
improvements would be needed.