Prototipo de sistema de detección de tripletas en R para Text Mining

Moreu Rubio, Roberto (2016). Prototipo de sistema de detección de tripletas en R para Text Mining. Proyecto Fin de Carrera / Trabajo Fin de Grado, E.T.S. de Ingenieros Informáticos (UPM), Madrid, España.

Descripción

Título: Prototipo de sistema de detección de tripletas en R para Text Mining
Autor/es:
  • Moreu Rubio, Roberto
Director/es:
  • Fernández del Pozo de Salamanca, Juan Antonio
Tipo de Documento: Proyecto Fin de Carrera/Grado
Grado: Grado en Ingeniería Informática
Fecha: Junio 2016
Materias:
Escuela: E.T.S. de Ingenieros Informáticos (UPM)
Departamento: Inteligencia Artificial
Licencias Creative Commons: Reconocimiento - Sin obra derivada - No comercial

Texto completo

[img]
Vista Previa
PDF (Document Portable Format) - Se necesita un visor de ficheros PDF, como GSview, Xpdf o Adobe Acrobat Reader
Descargar (1MB) | Vista Previa

Resumen

El mundo de la minería de texto está poniéndose de moda de una manera estrepitosa debido a la cantidad de información contenida en textos que antes se pensaba no se podía extraer automáticamente. Esto junto con la creciente utilización de redes sociales y medios por los que compartir información han hecho de la minería de texto un campo en alto desarrollo, mediante el cual se puede extraer información realmente útil en un sinfín de ámbitos. En el momento existe un gran abanico de técnicas comprendidas en la minería de texto, como el análisis de sentimientos, extracción y clasificación de temas y el reconocimiento de patrones. Gracias a este tipo de técnicas se hace posible automatizar o semi-automatizar procesos como filtrar spam en el correo, hacer recomendaciones en tiendas online, etiquetar documentos según su contenido, detectar casos de fraude o ayudar a luchar contra la ciberdelincuencia, entre muchos otros. Es por ello que la minería de textos tiene sin duda un futuro prometedor. Este trabajo documenta el desarrollo de una herramienta de minería de texto dedicada a la detección de estructuras Sujeto + Verbo + Objeto directo, también denominadas tripletas. Esta detección permite sacar ideas generales de un documento, resaltando las acciones y las entidades relacionadas en ellas dentro de un texto, lo que se podría interpretar como un resumen. A esta herramienta se le ha a~nadido además un módulo de clasificación mediante el cual dada una serie de frases y un ámbito, se puede saber cuál de esas frases es la más relevante. A pesar de la dificultad de trabajar con el lenguaje natural se han obtenido unos resultados prometedores que podrían sentar las bases de un paquete de detección de tripletas para R. Aunque ciertas mejoras serían necesarias.---ABSTRACT---The world of text mining is catching on due to the amount of information contained in texts that was previously thought to be impossible to extract automatically. This, together with the ever increasing use of social networks and means of information sharing have made text mining a field in rapid development, through which it is possible to extract very useful information in a variety of areas. At the moment there is a wide range of techniques involved in text mining, such as sentiment analysis, topic extraction and classification, and pattern recognition. Thanks to these kind of techniques it now becomes possible to automate or semi-automate processes like filtering email spam, making online shoping recommendations, tagging documents depending on their contents, detecting fraud, or helping to fight cybercrime, as well as many others. That is why text mining has with no doubt a promising future. This paper documents the development of a text mining tool dedicated to the detection of Subject + Verb + Direct object structures in sentences, also known as triplets. This detection allows drawing general ideas of a document by highlighting actions and the entities related in them within the text, which could be interpreted as a summary. This tool has also been added a classification module whereby given a series of sentences and a scope it is possible to know which of the sentences is the most relevant. Despite the dificulty of working with natural language the tool has returned very promising results that could form the basis of a triplet detection library in R. Although some improvements would be needed.

Más información

ID de Registro: 43530
Identificador DC: http://oa.upm.es/43530/
Identificador OAI: oai:oa.upm.es:43530
Depositado por: Biblioteca Facultad de Informatica
Depositado el: 11 Oct 2016 07:42
Ultima Modificación: 11 Oct 2016 07:42
  • Open Access
  • Open Access
  • Sherpa-Romeo
    Compruebe si la revista anglosajona en la que ha publicado un artículo permite también su publicación en abierto.
  • Dulcinea
    Compruebe si la revista española en la que ha publicado un artículo permite también su publicación en abierto.
  • Recolecta
  • e-ciencia
  • Observatorio I+D+i UPM
  • OpenCourseWare UPM