@unpublished{upm68413, address = {Madrid}, title = {Establecer relaciones entre usuarios y sus intereses mediante Web Scraping}, month = {July}, year = {2021}, note = {Unpublished}, url = {https://oa.upm.es/68413/}, abstract = {En la actualidad se puede adquirir una gran cantidad de datos de internet, ya sea por cookies o cualquier informaci{\'o}n que puedan dar los usuarios de cualquier p{\'a}gina web. Esto es de vital importancia para fines comerciales, econ{\'o}micos o de car{\'a}cter personal, debido a que estos datos determinan los intereses de cada uno de los usuarios que navegan internet o los datos establecidos en p{\'a}ginas web. Un rastreador web tiene como funci{\'o}n inspeccionar las p{\'a}ginas de internet de forma automatizada para guardar copias enteras o partes de esas p{\'a}ginas. Esto hace que se pueda obtener continuamente informaci{\'o}n clave de los internautas de un sitio web, para su uso personal o comercial de cualquier empresa interesada. Este Trabajo de Fin de Grado ten{\'i}a como objetivo el uso de web scraping para realizar una base de datos centrada en relaciones de los intereses de los usuarios dentro del que era el segundo mayor foro de habla hispana, Meristation. Durante el transcurso de este proyecto se ha cerrado el foro de Meristation, por lo que ser{\'a}n dos partes, la primera hablando del proyecto de Meristation y la segunda se hablar{\'a} del proyecto de 3dJuegos. Meristation ten{\'i}a un gran inter{\'e}s para el uso de rastreadores web, porque estaba dedicado en su gran mayor{\'i}a a los videojuegos. Los usuarios pod{\'i}an crear un tema en cualquiera de sus subforos, permitiendo a los internautas comentar acerca de ello. Esto consegu{\'i}a que se pudiera establecer una relaci{\'o}n entre el inter{\'e}s en videojuegos o videoconsolas y los usuarios que interactuaban a partir de eso, resultando en informaci{\'o}n de gran importancia para las empresas enfocadas a videojuegos para poder realizar anuncios de una forma m{\'a}s personalizada. Esta parte del trabajo se centraba sobre todo en la relaci{\'o}n que hay entre los distintos subforos de Meristation, los temas que puedan crear los usuarios en esos subforos y las respuestas de los dem{\'a}s internautas a esos temas, debido a que se puede deducir que esos usuarios estaban interesados tanto en el subforo como en el tema en cuesti{\'o}n dado por el usuario que lo ha creado. Al conseguir establecer las relaciones entre los usuarios y los temas de los subforos junto a los comentarios de los dem{\'a}s internautas interesados, se guarda en un fichero JSON para despu{\'e}s poder manipular la informaci{\'o}n mediante una base de datos de MongoDB. En la realizaci{\'o}n de este Trabajo de Fin de Grado se ha encontrado un grave problema debido a que se centraba en Meristation y dos d{\'i}as despu{\'e}s de haber realizado el proyecto, Meristation ha procedido a cerrar el foro, siendo el segundo m{\'a}s grande de Espa{\~n}a y el primero en videojuegos. Esto implica que no se podr{\'i}a demostrar el c{\'o}digo realizado en el proyecto, por lo que ha sido obligatorio usar otra p{\'a}gina web para complimentar la defensa de este TFG. Por tanto, varios apartados se han divido en dos partes, la primera realizada en Meristation y la segunda en 3Djuegos, otro de los foros m{\'a}s importantes de videojuegos en Espa{\~n}a. Su estructura es muy parecida a la que exist{\'i}a en la zonaforo de Meristation, por lo que al poseer subforos de temas tan variados sigue siendo un reclamo comercial para una gran cantidad de empresas, adem{\'a}s de poder usar un sitio web con el crecimiento exponencial de audiencia de 3dJuegos en los {\'u}ltimos a{\~n}os. Para realizar este TFG, primero se har{\'a} una breve introducci{\'o}n sobre crawling, las formas de realizarlo y los beneficios de su uso ya sea a corto plazo como a largo plazo. Despu{\'e}s, se relata acerca de los lenguajes en los que se puede centrar un proyecto de web scraping especialmente el lenguaje usado para este proyecto, Python, y sus formas de rastrear webs, detallando las m{\'a}s importantes. Tras explicar los distintos m{\'e}todos de web Scraping de Python, se explica por qu{\'e} se ha usado Scrapy. Se explica c{\'o}mo funciona y c{\'o}mo se ha utilizado en relaci{\'o}n al TFG, ya sea en la parte de Meristation o en la de 3dJuegos. Para acabar el apartado de desarrollo, se explica c{\'o}mo se han tratado los datos de rastreo en JSON y su posterior guardado en una base de datos de MONGODB. A continuaci{\'o}n se examinar{\'a}n los resultados del proyecto y los problemas que ha podido causar en su realizaci{\'o}n. Por {\'u}ltimo, al haber terminado se comprueba que se cumplen los objetivos pactados antes de empezar el proyecto y se realiza una conclusi{\'o}n, explicando los motivos y usos que se podr{\'i}an dar al haber cumplido el objetivo, adem{\'a}s de una reflexi{\'o}n sobre el futuro del web scraping en el mundo. Abstract: Nowadays, a large amount of data can be acquired from the Internet, either by cookies or any information that the users of any web page can give. This is of vital importance for commercial, economic or personal purposes, because these data can be used to get the interests of each of the users who browse the Internet or the data established on web pages. A web crawler has the function of inspecting internet pages in an automated way to save entire copies or parts of those pages. This makes it possible to continuously obtain key information from the Internet users of a website, for their personal or commercial use of any interested company. This Final Degree Project aimed to use web scraping to create a database focused on user interests relationships within what was the second largest Spanish-speaking forum, Meristation. During the course of this project, the Meristation forum has been closed, so there will be two parts, the first one talking about the Meristation project and the second one talking about the 3dJuegos project. Meristation had a great interest for the use of web trackers, because it was mostly dedicated to video games. Users could create a topic in any of its sub-forums, allowing Internet users to comment on it. This made it possible to establish a relationship between the interest in video games or video consoles and the users who interacted from that, resulting in information of great importance for companies focused on video games to be able to make advertisements in a more personal way. This part of the work focused mainly on the relationship between the different sub-forums of Meristation, the topics that users can create in those sub-forums and the responses of other Internet users to those topics, since it can be deduced that those users they were interested in both the sub-forum and the topic in question given by the user who created it. By managing to establish the relationships between users and the topics of the sub-forums together with the comments of other interested Internet users, it is saved in a JSON file so that the information can later be manipulated through a MongoDB database. In the realization of this Final Degree Project a serious problem has been found because it was focused on Meristation and two days after having finished the project, Meristation proceeded to close the forum, being the second largest in Spain and the first in video games. This implies that the code made in the project could not be demonstrated, so it has been mandatory to use another web page to continue the defense of this TFG. Therefore, several sections have been divided into two parts, the first one carried out in Meristation and the second in 3Djuegos, another of the most important videogames forums in Spain. Its structure is very similar to the one that existed in the Meristation forum, so having sub-forums on such varied topics is still a commercial claim for a large number of companies, in addition to being able to use a website with exponential audience growth from 3dJuegos in recent years. To carry out this TFG, first a brief introduction will be made about crawling, the ways of doing it and the benefits of its use, both in the short term and in the long term. Then, it tells about the languages in which a web scraping project can focus, especially the language used for this project, Python, and its ways of crawling webs, detailing the most important ones. After explaining the different methods of Python's web Scraping, it is explained why Scrapy has been used. It explains how it works and how it has been used in relation to the TFG, either in the Meristation part or in the 3dJuegos part. To finish the development section, it is explained how the trace data has been treated in JSON and its subsequent saving in a MONGODB database. Next, the results of the project and the problems it may have caused in its implementation will be examined. Finally, upon completion, it is verified that the agreed objectives are met before starting the project and a conclusion is made, explaining the reasons and uses that could be given when the objective has been met, as well as a reflection on the future of web scraping. in the world.}, keywords = {Web scraping; Sistemas de rastreo; Videojuegos}, author = {Castro Blanco, Antonio} }