Establecer relaciones entre usuarios y sus intereses mediante Web Scraping

Castro Blanco, Antonio (2021). Establecer relaciones entre usuarios y sus intereses mediante Web Scraping. Proyecto Fin de Carrera / Trabajo Fin de Grado, E.T.S.I. de Sistemas Informáticos (UPM), Madrid.

Description

Title: Establecer relaciones entre usuarios y sus intereses mediante Web Scraping
Author/s:
  • Castro Blanco, Antonio
Contributor/s:
  • Lara Cabrera, Raúl
Item Type: Final Project
Degree: Grado en Ingeniería del Software
Date: July 2021
Subjects:
Freetext Keywords: Web scraping; Sistemas de rastreo; Videojuegos
Faculty: E.T.S.I. de Sistemas Informáticos (UPM)
Department: Sistemas Informáticos
Creative Commons Licenses: Recognition - No derivative works - Non commercial

Full text

[img] PDF - Users in campus UPM only - Requires a PDF viewer, such as GSview, Xpdf or Adobe Acrobat Reader
Download (1MB)
[img] Archive (ZIP) - Users in campus UPM only
Download (22kB)

Abstract

En la actualidad se puede adquirir una gran cantidad de datos de internet, ya sea por cookies o cualquier información que puedan dar los usuarios de cualquier página web. Esto es de vital importancia para fines comerciales, económicos o de carácter personal, debido a que estos datos determinan los intereses de cada uno de los usuarios que navegan internet o los datos establecidos en páginas web. Un rastreador web tiene como función inspeccionar las páginas de internet de forma automatizada para guardar copias enteras o partes de esas páginas. Esto hace que se pueda obtener continuamente información clave de los internautas de un sitio web, para su uso personal o comercial de cualquier empresa interesada. Este Trabajo de Fin de Grado tenía como objetivo el uso de web scraping para realizar una base de datos centrada en relaciones de los intereses de los usuarios dentro del que era el segundo mayor foro de habla hispana, Meristation. Durante el transcurso de este proyecto se ha cerrado el foro de Meristation, por lo que serán dos partes, la primera hablando del proyecto de Meristation y la segunda se hablará del proyecto de 3dJuegos. Meristation tenía un gran interés para el uso de rastreadores web, porque estaba dedicado en su gran mayoría a los videojuegos. Los usuarios podían crear un tema en cualquiera de sus subforos, permitiendo a los internautas comentar acerca de ello. Esto conseguía que se pudiera establecer una relación entre el interés en videojuegos o videoconsolas y los usuarios que interactuaban a partir de eso, resultando en información de gran importancia para las empresas enfocadas a videojuegos para poder realizar anuncios de una forma más personalizada. Esta parte del trabajo se centraba sobre todo en la relación que hay entre los distintos subforos de Meristation, los temas que puedan crear los usuarios en esos subforos y las respuestas de los demás internautas a esos temas, debido a que se puede deducir que esos usuarios estaban interesados tanto en el subforo como en el tema en cuestión dado por el usuario que lo ha creado. Al conseguir establecer las relaciones entre los usuarios y los temas de los subforos junto a los comentarios de los demás internautas interesados, se guarda en un fichero JSON para después poder manipular la información mediante una base de datos de MongoDB. En la realización de este Trabajo de Fin de Grado se ha encontrado un grave problema debido a que se centraba en Meristation y dos días después de haber realizado el proyecto, Meristation ha procedido a cerrar el foro, siendo el segundo más grande de España y el primero en videojuegos. Esto implica que no se podría demostrar el código realizado en el proyecto, por lo que ha sido obligatorio usar otra página web para complimentar la defensa de este TFG. Por tanto, varios apartados se han divido en dos partes, la primera realizada en Meristation y la segunda en 3Djuegos, otro de los foros más importantes de videojuegos en España. Su estructura es muy parecida a la que existía en la zonaforo de Meristation, por lo que al poseer subforos de temas tan variados sigue siendo un reclamo comercial para una gran cantidad de empresas, además de poder usar un sitio web con el crecimiento exponencial de audiencia de 3dJuegos en los últimos años. Para realizar este TFG, primero se hará una breve introducción sobre crawling, las formas de realizarlo y los beneficios de su uso ya sea a corto plazo como a largo plazo. Después, se relata acerca de los lenguajes en los que se puede centrar un proyecto de web scraping especialmente el lenguaje usado para este proyecto, Python, y sus formas de rastrear webs, detallando las más importantes. Tras explicar los distintos métodos de web Scraping de Python, se explica por qué se ha usado Scrapy. Se explica cómo funciona y cómo se ha utilizado en relación al TFG, ya sea en la parte de Meristation o en la de 3dJuegos. Para acabar el apartado de desarrollo, se explica cómo se han tratado los datos de rastreo en JSON y su posterior guardado en una base de datos de MONGODB. A continuación se examinarán los resultados del proyecto y los problemas que ha podido causar en su realización. Por último, al haber terminado se comprueba que se cumplen los objetivos pactados antes de empezar el proyecto y se realiza una conclusión, explicando los motivos y usos que se podrían dar al haber cumplido el objetivo, además de una reflexión sobre el futuro del web scraping en el mundo. Abstract: Nowadays, a large amount of data can be acquired from the Internet, either by cookies or any information that the users of any web page can give. This is of vital importance for commercial, economic or personal purposes, because these data can be used to get the interests of each of the users who browse the Internet or the data established on web pages. A web crawler has the function of inspecting internet pages in an automated way to save entire copies or parts of those pages. This makes it possible to continuously obtain key information from the Internet users of a website, for their personal or commercial use of any interested company. This Final Degree Project aimed to use web scraping to create a database focused on user interests relationships within what was the second largest Spanish-speaking forum, Meristation. During the course of this project, the Meristation forum has been closed, so there will be two parts, the first one talking about the Meristation project and the second one talking about the 3dJuegos project. Meristation had a great interest for the use of web trackers, because it was mostly dedicated to video games. Users could create a topic in any of its sub-forums, allowing Internet users to comment on it. This made it possible to establish a relationship between the interest in video games or video consoles and the users who interacted from that, resulting in information of great importance for companies focused on video games to be able to make advertisements in a more personal way. This part of the work focused mainly on the relationship between the different sub-forums of Meristation, the topics that users can create in those sub-forums and the responses of other Internet users to those topics, since it can be deduced that those users they were interested in both the sub-forum and the topic in question given by the user who created it. By managing to establish the relationships between users and the topics of the sub-forums together with the comments of other interested Internet users, it is saved in a JSON file so that the information can later be manipulated through a MongoDB database. In the realization of this Final Degree Project a serious problem has been found because it was focused on Meristation and two days after having finished the project, Meristation proceeded to close the forum, being the second largest in Spain and the first in video games. This implies that the code made in the project could not be demonstrated, so it has been mandatory to use another web page to continue the defense of this TFG. Therefore, several sections have been divided into two parts, the first one carried out in Meristation and the second in 3Djuegos, another of the most important videogames forums in Spain. Its structure is very similar to the one that existed in the Meristation forum, so having sub-forums on such varied topics is still a commercial claim for a large number of companies, in addition to being able to use a website with exponential audience growth from 3dJuegos in recent years. To carry out this TFG, first a brief introduction will be made about crawling, the ways of doing it and the benefits of its use, both in the short term and in the long term. Then, it tells about the languages in which a web scraping project can focus, especially the language used for this project, Python, and its ways of crawling webs, detailing the most important ones. After explaining the different methods of Python’s web Scraping, it is explained why Scrapy has been used. It explains how it works and how it has been used in relation to the TFG, either in the Meristation part or in the 3dJuegos part. To finish the development section, it is explained how the trace data has been treated in JSON and its subsequent saving in a MONGODB database. Next, the results of the project and the problems it may have caused in its implementation will be examined. Finally, upon completion, it is verified that the agreed objectives are met before starting the project and a conclusion is made, explaining the reasons and uses that could be given when the objective has been met, as well as a reflection on the future of web scraping. in the world.

More information

Item ID: 68413
DC Identifier: https://oa.upm.es/68413/
OAI Identifier: oai:oa.upm.es:68413
Deposited by: Biblioteca Universitaria Campus Sur
Deposited on: 07 Sep 2021 07:50
Last Modified: 07 Sep 2021 07:50
  • Logo InvestigaM (UPM)
  • Logo GEOUP4
  • Logo Open Access
  • Open Access
  • Logo Sherpa/Romeo
    Check whether the anglo-saxon journal in which you have published an article allows you to also publish it under open access.
  • Logo Dulcinea
    Check whether the spanish journal in which you have published an article allows you to also publish it under open access.
  • Logo de Recolecta
  • Logo del Observatorio I+D+i UPM
  • Logo de OpenCourseWare UPM