Crawler de artículos científicos para detectar menciones a conjuntos de datos

Galán Alonso, Jorge (2018). Crawler de artículos científicos para detectar menciones a conjuntos de datos. Proyecto Fin de Carrera / Trabajo Fin de Grado, E.T.S. de Ingenieros Informáticos (UPM), Madrid, España.

Description

Title: Crawler de artículos científicos para detectar menciones a conjuntos de datos
Author/s:
  • Galán Alonso, Jorge
Contributor/s:
  • Corcho, Oscar
Item Type: Final Project
Degree: Grado en Ingeniería Informática
Date: July 2018
Subjects:
Faculty: E.T.S. de Ingenieros Informáticos (UPM)
Department: Inteligencia Artificial
Creative Commons Licenses: Recognition - No derivative works - Non commercial

Full text

[img]
Preview
PDF - Requires a PDF viewer, such as GSview, Xpdf or Adobe Acrobat Reader
Download (1MB) | Preview

Abstract

Es un hecho que la creación de lo que conocemos como Internet ha cambiado la manera en la que percibimos las cosas dentro de la sociedad. La creación de esta red descentralizada es el mayor avance en cuanto a conocimiento se refiere dentro de la historia de la humanidad. Son numerosos los datos que encontramos dentro de la misma, en multitud de formatos, ya sean a través de páginas web bajo el protocolo HTML o archivos subidos a través de PDF. El establecimiento de ciertos protocolos en su día ha hecho que mucha de la información disponible no esté conectada entre sí, suponiendo uno de los mayores problemas a los que nos enfrentamos en estos días dentro de internet. Por el momento, es necesario realizar búsquedas manuales y sacar nuestros propios patrones y conclusiones dentro de todo este mar de datos, haciendo que se pierda gran parte de nuestro en realizar estas acciones. La aparición de los motores de búsqueda como Google o Yahoo facilito esta búsqueda, acelerando de manera considerable el tiempo dedicado a la recuperación de estos datos. Para realizar esta acción, se establecen patrones a través de sus algoritmos internos en base a temas o palabras clave. Dentro del campo de la investigación, en el cual cada día se descubren nuevos avances en diferentes aspectos, el uso de estos motores no siempre es válido. La búsqueda de información sigue siendo uno de los hechos que provocan lentitud a la hora de avanzar en campos de cualquier materia, frenando investigaciones por la falta de exactitud de los datos o por su falta de relación para ser contrastada. Es en este punto donde surgen la necesidad de creación de ciertos portales especializados en tratar una gran cantidad de artículos, normalmente en formato de PDF, para poder solventar los altos costes de tiempo que tienen su revisión y decidir si su contenido es adecuado para el ámbito a investigar. El presente TFG tiene como obj etivo la recolección de artículos relacionados a través de palabras clave dentro de diferentes fuentes de información, realizando un posterior procesado de los mismos para extraer sus recursos tales como texto, tablas e imágenes y su clasificación en diversos temas previamente seleccionados. El caso de uso elegido en este caso es la contaminación lumínica.---ABSTRACT---It is a fact that the creation of what we know as Internet has changed the way we perceive things within society. The creation of this decentralised network is the greatest advance in knowledge in the history of humankind. There are many data that we find within the same, in many formats, whether through web pages under the HTML protocol or files uploaded via PDF. The establishment of certain protocols has meant that much of the information available is not connected to each other, assuming one of the biggest problems we face these days on Internet. Nowadays, it ́s necessary to do manual searches and to draw our own patterns and conclusions within this whole sea of data, causing much of our efforts to be lost by performing these actions. The appearance of search engines such as Google or Yahoo facilitated this search by considerably speeding up the time spent recovering this data. To perform this action, patterns are established through their internal algorithms based on themes or keywords. Within the field of research, in which new advances are discovered every day in different aspects, the use of these engines isn ́t always valid. The search for information continues to be one of the facts that cause slow progress in fields of any subject, slowing down investigations due to the lack of accuracy of the data or the lack of a relation to be contrasted. It ́s at this point that the need arises to create certain portals specialized in dealing with a multitude of articles, usually in PDF format, to be able to solve the high time costs involved in their revision and decide whether their content is suitable for the area to be investigated. The present project aims to collect related articles through keywords within different sources of information, making a further processing of them to extract their resources such as text, tables and images and their classification in various topics previously selected. The use case chosen in this case is light pollution.

More information

Item ID: 52724
DC Identifier: http://oa.upm.es/52724/
OAI Identifier: oai:oa.upm.es:52724
Deposited by: Biblioteca Facultad de Informatica
Deposited on: 22 Oct 2018 10:33
Last Modified: 22 Oct 2018 10:33
  • Logo InvestigaM (UPM)
  • Logo GEOUP4
  • Logo Open Access
  • Open Access
  • Logo Sherpa/Romeo
    Check whether the anglo-saxon journal in which you have published an article allows you to also publish it under open access.
  • Logo Dulcinea
    Check whether the spanish journal in which you have published an article allows you to also publish it under open access.
  • Logo de Recolecta
  • Logo del Observatorio I+D+i UPM
  • Logo de OpenCourseWare UPM