Desarrollo de un sistema interactivo de procesado de una colección de documentos para clasificarlos en base a su temática

Calero Luis, David (2015). Desarrollo de un sistema interactivo de procesado de una colección de documentos para clasificarlos en base a su temática. Proyecto Fin de Carrera / Trabajo Fin de Grado, E.T.S. de Ingenieros Informáticos (UPM), Madrid, España.

Description

Title: Desarrollo de un sistema interactivo de procesado de una colección de documentos para clasificarlos en base a su temática
Author/s:
  • Calero Luis, David
Contributor/s:
  • Antonio Jiménez, Angélica de
Item Type: Final Project
Degree: Grado en Ingeniería Informática
Date: June 2015
Subjects:
Faculty: E.T.S. de Ingenieros Informáticos (UPM)
Department: Lenguajes y Sistemas Informáticos e Ingeniería del Software
Creative Commons Licenses: Recognition - No derivative works - Non commercial

Full text

[img]
Preview
PDF - Requires a PDF viewer, such as GSview, Xpdf or Adobe Acrobat Reader
Download (1MB) | Preview

Abstract

A día de hoy, existen millones de artículos en internet que tratan sobre diferentes temas. Los investigadores hacen búsquedas exhaustivas para encontrar aquellos artículos que encuentran más importantes, los cuales se van descargando en su ordenador llegando a tal extremo que la cantidad de documentos que pueden llegar a tener se vuelve casi inmanejable. El proyecto Calimaco, el cual se está llevando a cabo en el Laboratorio Decoroso Crespo, busca dar soporte a la tarea de búsqueda de información en el ámbito de la investigación, donde la cantidad de información existente es abrumadora. El objetivo es generar una visualización tridimensional de una serie de documentos (corpus), de manera que el usuario pueda explorarlo fácilmente. Además se pretende que dicho proceso se adapte a las necesidades y características particulares del usuario. Esto puede resultar muy útil cuando, por ejemplo, un investigador desea buscar información acerca de un determinado tema dentro de todos sus documentos, ya que el sistema los clasificará en base a dichos temas, permitiéndole acceder a la información relevante de manera rápida y sencilla. La división de este proyecto se compone de dos partes: la primera se corresponde al preprocesamiento de los documentos, mientras que la segunda se encarga de la visualización de los resultados, además de la interactuación del usuario. El trabajo realizado expuesto en esta memoria se sitúa dentro de la parte de preprocesamiento del proyecto Calimaco. La aportación a este proyecto ha consistido en la realización de pruebas y análisis de los resultados, diseño e implementación de una base de datos, e integración de ambas partes, creando una primera versión del sistema. Para comprobar el funcionamiento de esta primera versión se diseñó un plan de pruebas del sistema para medir el tiempo y la precisión.---ABSTRACT---Nowadays, there are millions of articles on the Internet that deal with different topics. Researchers do exhaustive searches to find those articles that are more important for them and download them to their computer, sometimes, reaching a point where the amount of downloaded documents is unmanageable. Calimaco project, which is being carried out at Laboratorio Decoroso Crespo, aims to provide a solution in the task of searching information in terms of investigation, where the amount of information is overwhelming. The goal is to create a tridimensional vision of a set of documents (corpus), so that the user can explore it easily. In addition, this process is intended to adapt to the personal needs and characteristics of the user. This can turn out to be useful when, for example, a researcher wants to seek information about a specific subject inside all his documents, because the system will classify them by subjects, allowing to access relevant information in a fast and easy way. This project is formed by two big sections: the first one corresponds to the pre-process of documents, while the second one is in charge of result visualization as well as the interaction with the user. This memory contains the explanation of the job done in the first part of the Calimaco project, which belongs to the pre-process of documents. The contributions done to the project are: development of tests and analysis of results, a design and implementation of a database, and an integration of both parts (pre-process of documents and result visualization) creating a first version of the system. To test the functioning of this first version, the author created a system test plan in order to gather information about execution time and accuracy.

More information

Item ID: 38323
DC Identifier: http://oa.upm.es/38323/
OAI Identifier: oai:oa.upm.es:38323
Deposited by: Biblioteca Facultad de Informatica
Deposited on: 05 Nov 2015 09:59
Last Modified: 27 Oct 2016 09:52
  • Logo InvestigaM (UPM)
  • Logo GEOUP4
  • Logo Open Access
  • Open Access
  • Logo Sherpa/Romeo
    Check whether the anglo-saxon journal in which you have published an article allows you to also publish it under open access.
  • Logo Dulcinea
    Check whether the spanish journal in which you have published an article allows you to also publish it under open access.
  • Logo de Recolecta
  • Logo del Observatorio I+D+i UPM
  • Logo de OpenCourseWare UPM