Desarrollo de un sistema interactivo de procesado de una colección de documentos para clasificarlos en base a su temática

Calero Luis, David (2015). Desarrollo de un sistema interactivo de procesado de una colección de documentos para clasificarlos en base a su temática. Proyecto Fin de Carrera / Trabajo Fin de Grado, E.T.S. de Ingenieros Informáticos (UPM), Madrid, España.

Descripción

Título: Desarrollo de un sistema interactivo de procesado de una colección de documentos para clasificarlos en base a su temática
Autor/es:
  • Calero Luis, David
Director/es:
  • Antonio Jiménez, Angélica de
Tipo de Documento: Proyecto Fin de Carrera/Grado
Grado: Grado en Ingeniería Informática
Fecha: Junio 2015
Materias:
Escuela: E.T.S. de Ingenieros Informáticos (UPM)
Departamento: Lenguajes y Sistemas Informáticos e Ingeniería del Software
Licencias Creative Commons: Reconocimiento - Sin obra derivada - No comercial

Texto completo

[img]
Vista Previa
PDF (Document Portable Format) - Se necesita un visor de ficheros PDF, como GSview, Xpdf o Adobe Acrobat Reader
Descargar (1MB) | Vista Previa

Resumen

A día de hoy, existen millones de artículos en internet que tratan sobre diferentes temas. Los investigadores hacen búsquedas exhaustivas para encontrar aquellos artículos que encuentran más importantes, los cuales se van descargando en su ordenador llegando a tal extremo que la cantidad de documentos que pueden llegar a tener se vuelve casi inmanejable. El proyecto Calimaco, el cual se está llevando a cabo en el Laboratorio Decoroso Crespo, busca dar soporte a la tarea de búsqueda de información en el ámbito de la investigación, donde la cantidad de información existente es abrumadora. El objetivo es generar una visualización tridimensional de una serie de documentos (corpus), de manera que el usuario pueda explorarlo fácilmente. Además se pretende que dicho proceso se adapte a las necesidades y características particulares del usuario. Esto puede resultar muy útil cuando, por ejemplo, un investigador desea buscar información acerca de un determinado tema dentro de todos sus documentos, ya que el sistema los clasificará en base a dichos temas, permitiéndole acceder a la información relevante de manera rápida y sencilla. La división de este proyecto se compone de dos partes: la primera se corresponde al preprocesamiento de los documentos, mientras que la segunda se encarga de la visualización de los resultados, además de la interactuación del usuario. El trabajo realizado expuesto en esta memoria se sitúa dentro de la parte de preprocesamiento del proyecto Calimaco. La aportación a este proyecto ha consistido en la realización de pruebas y análisis de los resultados, diseño e implementación de una base de datos, e integración de ambas partes, creando una primera versión del sistema. Para comprobar el funcionamiento de esta primera versión se diseñó un plan de pruebas del sistema para medir el tiempo y la precisión.---ABSTRACT---Nowadays, there are millions of articles on the Internet that deal with different topics. Researchers do exhaustive searches to find those articles that are more important for them and download them to their computer, sometimes, reaching a point where the amount of downloaded documents is unmanageable. Calimaco project, which is being carried out at Laboratorio Decoroso Crespo, aims to provide a solution in the task of searching information in terms of investigation, where the amount of information is overwhelming. The goal is to create a tridimensional vision of a set of documents (corpus), so that the user can explore it easily. In addition, this process is intended to adapt to the personal needs and characteristics of the user. This can turn out to be useful when, for example, a researcher wants to seek information about a specific subject inside all his documents, because the system will classify them by subjects, allowing to access relevant information in a fast and easy way. This project is formed by two big sections: the first one corresponds to the pre-process of documents, while the second one is in charge of result visualization as well as the interaction with the user. This memory contains the explanation of the job done in the first part of the Calimaco project, which belongs to the pre-process of documents. The contributions done to the project are: development of tests and analysis of results, a design and implementation of a database, and an integration of both parts (pre-process of documents and result visualization) creating a first version of the system. To test the functioning of this first version, the author created a system test plan in order to gather information about execution time and accuracy.

Más información

ID de Registro: 38323
Identificador DC: http://oa.upm.es/38323/
Identificador OAI: oai:oa.upm.es:38323
Depositado por: Biblioteca Facultad de Informatica
Depositado el: 05 Nov 2015 09:59
Ultima Modificación: 27 Oct 2016 09:52
  • Open Access
  • Open Access
  • Sherpa-Romeo
    Compruebe si la revista anglosajona en la que ha publicado un artículo permite también su publicación en abierto.
  • Dulcinea
    Compruebe si la revista española en la que ha publicado un artículo permite también su publicación en abierto.
  • Recolecta
  • e-ciencia
  • Observatorio I+D+i UPM
  • OpenCourseWare UPM