Construcción de una red social a partir de un foro de piratería mediante técnicas de crawling y scraping

Martín Malagón, Manuel (2021). Construcción de una red social a partir de un foro de piratería mediante técnicas de crawling y scraping. Proyecto Fin de Carrera / Trabajo Fin de Grado, E.T.S.I. de Sistemas Informáticos (UPM), Madrid.

Description

Title: Construcción de una red social a partir de un foro de piratería mediante técnicas de crawling y scraping
Author/s:
  • Martín Malagón, Manuel
Contributor/s:
  • Lara Cabrera, Raúl
Item Type: Final Project
Degree: Grado en Ingeniería del Software
Date: June 2021
Subjects:
Freetext Keywords: Redes sociales; Crawling; Motores de búsqueda
Faculty: E.T.S.I. de Sistemas Informáticos (UPM)
Department: Sistemas Informáticos
Creative Commons Licenses: Recognition - No derivative works - Non commercial

Full text

[img] PDF - Users in campus UPM only - Requires a PDF viewer, such as GSview, Xpdf or Adobe Acrobat Reader
Download (4MB)
[img] Archive (ZIP) - Users in campus UPM only
Download (58kB)

Abstract

Las redes y medios sociales en Internet se han vuelto parte integral de nuestras vidas, en donde cada uno de los usuarios que la conforman interaccionan con el resto, configurando redes complejas fruto del intercambio de información. Esas interacciones, además, pueden ser de diversas índoles, entre las que se encuentra la piratería digital, tema recurrente donde los haya, en donde ha existido una clara evolución tanto en la obtención como en la compartición del recurso pirata, haciendo sumamente interesante la construcción de dichas redes sociales. Por otro lado, la dificultad a la hora de obtener información de forma sistemática de sitios web de terceros en los que, por norma general, no existe ninguna interfaz pública definida, hace necesario el empleo de diversas técnicas de extracción de información tales como el crawling y el scraping que faciliten la recolección de la tan esperada y tan ansiada información construyendo algoritmos en base a ellos y logrando así nuestro propósito. Como consecuencia de ello, el presente proyecto tiene como aspiración la de mostrar los distintos aspectos y las distintas fases a considerar de cara a desarrollar un sistema de extracción automático de información mediante el empleo de técnicas de crawling y de scraping diseñado exclusivamente para un foro de discusión de piratería digital en particular con el fin último de construir una red social compleja en la que, con vistas al futuro, realizar análisis y aplicar diversos algoritmos en función de los objetivos propuestos. Abstract: Social networks and social media on the Internet have become an important part of our lives, where each of the users that make it up interact with the rest forming complex networks as a result of the exchange of information. In addition, these interactions can be of various topics such as digital piracy, a recurring topic where there has been a clear evolution in both the collection and sharing of pirated resources, making the building of such social networks extremely interesting. On the other hand, the difficulty in systematically obtaining information from third-party websites in which, as a general rule, there is no defined public interface, makes it necessary to use some information extraction techniques such as crawling and scraping that facilitate the collection of the long-awaited and long-desired information by building algorithms based on them and thus achieving our purpose. As a consequence, the aim of this project is to show the different aspects and phases to be considered in order to develop an automatic information extraction system using crawling and scraping techniques designed exclusively for a particular digital piracy discussion forum with the ultimate goal of building a complex social network in which to perform analysis and apply different algorithms in the future according to the proposed objectives.

More information

Item ID: 67425
DC Identifier: https://oa.upm.es/67425/
OAI Identifier: oai:oa.upm.es:67425
Deposited by: Biblioteca Universitaria Campus Sur
Deposited on: 22 Jun 2021 05:26
Last Modified: 22 Jun 2021 05:26
  • Logo InvestigaM (UPM)
  • Logo GEOUP4
  • Logo Open Access
  • Open Access
  • Logo Sherpa/Romeo
    Check whether the anglo-saxon journal in which you have published an article allows you to also publish it under open access.
  • Logo Dulcinea
    Check whether the spanish journal in which you have published an article allows you to also publish it under open access.
  • Logo de Recolecta
  • Logo del Observatorio I+D+i UPM
  • Logo de OpenCourseWare UPM