SALTbot: creación de un bot para enlazar artículos y software en WikiData

Bolinches Segovia, Jorge (2022). SALTbot: creación de un bot para enlazar artículos y software en WikiData. Proyecto Fin de Carrera / Trabajo Fin de Grado, E.T.S. de Ingenieros Informáticos (UPM), Madrid, España.

Description

Title: SALTbot: creación de un bot para enlazar artículos y software en WikiData
Author/s:
  • Bolinches Segovia, Jorge
Contributor/s:
Item Type: Final Project
Degree: Grado en Ingeniería Informática
Date: May 2022
Subjects:
Faculty: E.T.S. de Ingenieros Informáticos (UPM)
Department: Inteligencia Artificial
Creative Commons Licenses: Recognition - No derivative works - Non commercial

Full text

[thumbnail of TFG_JORGE_BOLINCHES_SEGOVIA.pdf] PDF - Requires a PDF viewer, such as GSview, Xpdf or Adobe Acrobat Reader
Download (4MB)

Abstract

El concepto de “Linked Data” ha estado en auge en los últimos años, y prueba de ello es tanto el exponencial crecimiento en el número de datasets que emplean estas tecnologías como el aumento de la cantidad de datos de estos datasets almacenan La cantidad de datos que estos conjuntos almacenan hace que sea un trabajo muy costoso introducir datos y sus relaciones con otros datos de forma manual. Por suerte, la principal ventaja del Linked Data es que el formato y serialización de los datos permite simplificar la automatización y la toma de decisiones a la hora de manipular los datasets. Dado que esta tecnología abre un nuevo paradigma a la hora de automatizar la explotación de conjuntos de datos, es necesario desarrollar nuevas tecnologías que permitan crear, mantener, insertar y eliminar elementos de estos conjuntos de forma eficiente y fiable. Uno de los conjuntos de datos que cuentan con esta tecnología es Wikidata. Este es un grafo de conocimiento colaborativo creado por Wikimedia Foundation, y actualmente cuenta con más de 97 millones de nodos o entidades únicas [1] y casi 1.4 billones de aristas [2] . Gracias a que la Wikimedia Foundation también está desarrollando un grafo de datos enlazados para almacenar y representar datos bibliográficos a partir de sus artículos (WikiCite), aproximadamente un tercio de las entidades que existen a día de hoy en el grafo se corresponden con artículos científicos. Puesto que el desarrollo de datasets con Linked Data es una disciplina que se engloba dentro del ámbito de la tecnología, y por lo tanto un gran número de usuarios pertenece al entorno de la ingeniería informática, es habitual ver artículos científicos en Wikidata que describen o están relacionados con el desarrollo de un software. Sin embargo, también es habitual ver que a pesar de que exista la entidad de software y la entidad del artículo científico que lo describe en Wikidata, estas dos entidades no están correctamente relacionadas usando las tecnologías que los datos enlazados ponen a nuestra disposición. Debido al gran número de entidades que habría que enlazar manualmente, y aprovechándonos de que el Linked Data nos permite automatizar esta tarea, se propone SALTbot como una herramienta que permita automatizar la búsqueda en Wikidata de artículos científicos relacionados con un determinado software y enlazar estas dos entidades en el grafo de conocimiento de manera autónoma.---ABSTRACT---The concept of "Linked Data" has been trending on recent years, and the most observable examples of this phenomenon are the exponential growth in the number of datasets that use these technologies as well as the increase in the amount of data these datasets store. The vast amount of data this datasets handle makes it very expensive to introduce data and its relationships with other data manually. Fortunately, the main advantage of Linked Data is that the format and serialization of the data allows simplifying the automatization and the decision making when manipulating datasets. Given that this technology opens a new paradigm when it comes to automating the exploitation of data sets, it is necessary to develop new technologies that allow elements to be created, maintained, inserted, and deleted from these sets efficiently and reliably. One of the datasets that implement this technology is Wikidata. Wikidata is a collaborative knowledge graph created by the Wikimedia Foundation, and currently has more than 97 million unique nodes or entities stored [1] and almost 1.4 billion edges [2]. Due to the fact that the Wikimedia Foundation is also developing a knowledge graph for storing and representing bibliographical data (Wikicite), approximately a third of the entities that exist today in the graph correspond to scientific articles. Since the development of datasets with Linked Data is a discipline that falls within the field of technology, and therefore a large number of users belong to the computer science environment, it is common to see scientific articles on Wikidata that describe or are related to the development of a determined software. However, it is also common to see that, despite both the software and the article which describes it exist as nodes in Wikidata, these two entities are not correctly related using the technologies that linked data makes available to us. Because of the large number of entities that would have to be linked manually, and taking advantage of the fact that linked data allows us to automate this task, we propose SALTbot as a tool that allows the automatization of searching scientific articles and their software on Wikidata and linking these two entities in the knowledge graph.

More information

Item ID: 71007
DC Identifier: https://oa.upm.es/71007/
OAI Identifier: oai:oa.upm.es:71007
Deposited by: Biblioteca Facultad de Informatica
Deposited on: 07 Jul 2022 10:01
Last Modified: 07 Jul 2022 10:01
  • Logo InvestigaM (UPM)
  • Logo GEOUP4
  • Logo Open Access
  • Open Access
  • Logo Sherpa/Romeo
    Check whether the anglo-saxon journal in which you have published an article allows you to also publish it under open access.
  • Logo Dulcinea
    Check whether the spanish journal in which you have published an article allows you to also publish it under open access.
  • Logo de Recolecta
  • Logo del Observatorio I+D+i UPM
  • Logo de OpenCourseWare UPM