Full text
Preview |
PDF
- Requires a PDF viewer, such as GSview, Xpdf or Adobe Acrobat Reader
Download (1MB) | Preview |
Galán Alonso, Jorge (2018). Crawler de artículos científicos para detectar menciones a conjuntos de datos. Proyecto Fin de Carrera / Trabajo Fin de Grado, E.T.S. de Ingenieros Informáticos (UPM), Madrid, España.
Title: | Crawler de artículos científicos para detectar menciones a conjuntos de datos |
---|---|
Author/s: |
|
Contributor/s: |
|
Item Type: | Final Project |
Degree: | Grado en Ingeniería Informática |
Date: | July 2018 |
Subjects: | |
Faculty: | E.T.S. de Ingenieros Informáticos (UPM) |
Department: | Inteligencia Artificial |
Creative Commons Licenses: | Recognition - No derivative works - Non commercial |
Preview |
PDF
- Requires a PDF viewer, such as GSview, Xpdf or Adobe Acrobat Reader
Download (1MB) | Preview |
Es un hecho que la creación de lo que conocemos como Internet ha
cambiado la manera en la que percibimos las cosas dentro de
la sociedad. La
creación de
esta
red descentralizada es el mayor avance en cuanto a conocimiento
se refiere dentro de la historia de la humanidad. Son numerosos los datos que
encontramos dentro de la misma, en multitud de formatos, ya sean a través de
páginas web bajo el protocolo HTML o archivos subidos a través de PDF.
El establecimiento de ciertos protocolos en su día ha hecho que mucha de
la información disponible no esté conectada entre sí, suponiendo uno de los mayores
problemas a los que nos enfrentamos en estos días dentro de internet. Por el
momento, es necesario realizar búsquedas manuales y sacar nuestros propios
patrones y conclusiones dentro de todo este mar de datos, haciendo que se pierda
gran parte de nuestro en realizar estas acciones.
La
aparición de los motores de búsqueda como Google o Yahoo facilito esta
búsqueda, acelerando de manera considerable el tiempo dedicado a la recuperación
de estos datos. Para realizar esta acción, se establecen patrones a través de sus
algoritmos internos en base a temas o palabras clave.
Dentro del campo de la investigación, en el cual cada día se descubren
nuevos avances en diferentes aspectos, el uso de estos motores no siempre es
válido. La búsqueda de información sigue siendo uno de los hechos que provocan
lentitud a la hora de avanzar en campos de cualquier materia, frenando
investigaciones por la falta de exactitud de los datos o por su falta de relación para
ser contrastada. Es en este punto donde surgen la necesidad de creación de ciertos
portales
especializados
en tratar una gran cantidad de artículos, normalmente en
formato de PDF,
para poder solventar los altos costes de tiempo que tienen su
revisión y decidir si su contenido es adecuado para el ámbito a investigar.
El presente TFG tiene como obj
etivo la recolección de artículos relacionados
a través de palabras clave dentro de diferentes fuentes de información, realizando
un posterior procesado de los mismos
para extraer sus recursos tales como texto,
tablas e imágenes
y
su clasificación en diversos temas previamente seleccionados.
El caso de uso elegido en este caso es la contaminación lumínica.---ABSTRACT---It is a fact that the creation of what we know as Internet has changed the way
we perceive things within society. The creation of
this
decentralised network is the
greatest advance in knowledge in the history of
humankind. There are many data
that we find within the same, in many formats, whether through web pages under the
HTML protocol or files uploaded via PDF.
The establishment of certain protocols has meant that much of the information
available is not connected to each other, assuming one of the biggest problems we
face these days on Internet. Nowadays, it ́s necessary to do manual searches and
to draw our own patterns and conclusions within this whole sea of data, causing
much of our efforts to be lost by performing these actions.
The appearance of search engines such as Google or Yahoo facilitated this
search by considerably speeding up the time spent recovering this data. To perform
this action, patterns are established through their internal algorithms based on
themes or keywords.
Within the field of research, in which new advances are discovered every day
in different aspects, the use of these engines isn ́t always valid. The search for
information continues to be one of the facts that cause slow progress in fields of any
subject, slowing down investigations due to the lack of accuracy of the data or the
lack of a relation to be contrasted. It ́s at this point that the need arises to create
certain portals specialized in dealing with a multitude of articles, usually in PDF
format, to be able to solve the high time costs involved in their revision and decide
whether their content is suitable for the area to be investigated.
The present
project
aims to collect related articles through keywords within
different sources of information, making a further processing of them to extract their
resources such as text, tables and images and their classification in various topics
previously selected. The use case chosen in this case is light pollution.
Item ID: | 52724 |
---|---|
DC Identifier: | https://oa.upm.es/52724/ |
OAI Identifier: | oai:oa.upm.es:52724 |
Deposited by: | Biblioteca Facultad de Informatica |
Deposited on: | 22 Oct 2018 10:33 |
Last Modified: | 22 Oct 2018 10:33 |