Análisis del crawling en la actualidad y comparación de diferentes herramientas

Martínez Rodríguez, Adrián (2020). Análisis del crawling en la actualidad y comparación de diferentes herramientas. Proyecto Fin de Carrera / Trabajo Fin de Grado, E.T.S.I. de Sistemas Informáticos (UPM), Madrid.

Description

Title: Análisis del crawling en la actualidad y comparación de diferentes herramientas
Author/s:
  • Martínez Rodríguez, Adrián
Contributor/s:
  • Serradilla García, Francisco J.
Item Type: Final Project
Degree: Grado en Ingeniería del Software
Date: 2020
Subjects:
Freetext Keywords: Crawling; Motores de búsqueda; Arañas web
Faculty: E.T.S.I. de Sistemas Informáticos (UPM)
Department: Inteligencia Artificial
Creative Commons Licenses: Recognition - No derivative works - Non commercial

Full text

[img] PDF - Users in campus UPM only - Requires a PDF viewer, such as GSview, Xpdf or Adobe Acrobat Reader
Download (279kB)
[img] Archive (ZIP) - Users in campus UPM only
Download (5MB)

Abstract

El objetivo de este proyecto es analizar el crawling en la actualidad, su estado y desarrollo, y comparar distintas herramientas utilizadas para ello. Las herramientas se limitarán al lenguaje de programación Python. Debido al rápido desarrollo de las tecnologías, en la web cada vez hay más datos. Esto tiene a su vez ventajas y desventajas, como una gran facilidad para encontrar información relacionada con el tema que necesitemos o que, de tanta información que recopilemos, alguna no sea cierta o esté desactualizada. La información es necesaria para desempeñar correctamente el día a día, pero una gran cantidad de datos es capaz de producir ruido y hacer que sea difícil definir cuales son correctos. Para solucionar estos problemas aparecen varios mecanismos. Entre ellos el proceso de extracción de información y su posterior limpiado, priorizando y filtrando la información que es útil para nuestro objetivo, permitiendo seleccionar la información más adecuada para el usuario. Este proyecto se centra en analizar estos procesos de extracción, analizando sus posibilidades y capacidades dependiendo de qué información y de dónde se quiera extraer, así como qué opciones de limpieza nos ofrecen las propias herramientas y cómo tratar los datos una vez extraídos. Este proyecto surgió gracias una charla organizada por una compañera del departamento recursos humanos. En ella explicaba la dificultad de encontrar candidatos de forma eficaz a través de internet, así como el problema de las webs que copiaban las ofertas de trabajo para colgarlas en su propio portal. Esto es un problema ya que la mayoría utilizan métodos automatizados para obtener dicha información, con el consiguiente problema de errores y ofertas incompletas, títulos y descripciones equivocadas, junto con dificultades para llegar al origen de la oferta. Abstract: The goal of this project is to analyze current crawling technologies, their status and development, and compare different tools used for this task. The tools will be limited to the Python programming language. Due to the fast development of technologies, there is more and more data on the web. This situation has advantages and disadvantages. On one hand, it's rather easy to find information related to a specific topic. On the other hand, not all data will be true or up to date, which means it's necessary to filter all this data. Information is crucial to carry out daily tasks correctly, but a large amount of data may generate noise and make it difficult to define which data is correct. Due to these problems, several mechanisms appeared for this purpose. Among them, it's possible to find information extraction processes, cleaning, prioritizing and filtering. This way, it's possible to select only the information that is useful and most appropriate for the task. This project focuses on analyzing these extraction processes, finding their specific possibilities and capabilities for determining which information and where to be extracted, as well as which cleaning options the tools themselves offer and how to treat the data once it is extracted. This project idea was born thanks to a Ted-Talk carried out by a human resources colleague. In this talk she explains the difficulty of finding candidates effectively through the internet, as well as the problem of the websites which copy job offers to post on their own portal. This was a problem because most websites use automated methods to obtain such information, which leads to errors and incomplete offers, erroneous titles and descriptions, and difficulties for reaching the source of the offer.

More information

Item ID: 64897
DC Identifier: http://oa.upm.es/64897/
OAI Identifier: oai:oa.upm.es:64897
Deposited by: Biblioteca Universitaria Campus Sur
Deposited on: 22 Oct 2020 10:20
Last Modified: 22 Oct 2020 10:20
  • Logo InvestigaM (UPM)
  • Logo GEOUP4
  • Logo Open Access
  • Open Access
  • Logo Sherpa/Romeo
    Check whether the anglo-saxon journal in which you have published an article allows you to also publish it under open access.
  • Logo Dulcinea
    Check whether the spanish journal in which you have published an article allows you to also publish it under open access.
  • Logo de Recolecta
  • Logo del Observatorio I+D+i UPM
  • Logo de OpenCourseWare UPM