Mejoras para la detección de tipos de recursos en grafos de conocimiento aplicados a la DBpedia

Sanz Lucio, Sara (2021). Mejoras para la detección de tipos de recursos en grafos de conocimiento aplicados a la DBpedia. Thesis (Master thesis), E.T.S. de Ingenieros Informáticos (UPM).

Description

Title: Mejoras para la detección de tipos de recursos en grafos de conocimiento aplicados a la DBpedia
Author/s:
  • Sanz Lucio, Sara
Contributor/s:
  • Corcho García, Óscar
  • Rico Almodóvar, Mariano
Item Type: Thesis (Master thesis)
Masters title: Inteligencia Artificial
Date: July 2021
Subjects:
Freetext Keywords: DBpedia, Tipos de recursos, Grafo de conocimiento, Aprendizaje automático, Databus de DBpedia, Linked Data, DBpedia española, Resource types, Knowledge graph, Machine learning, Spanish DBpedia
Faculty: E.T.S. de Ingenieros Informáticos (UPM)
Department: Inteligencia Artificial
Creative Commons Licenses: Recognition - No derivative works - Non commercial

Full text

[img]
Preview
PDF - Requires a PDF viewer, such as GSview, Xpdf or Adobe Acrobat Reader
Download (75MB) | Preview

Abstract

Con el incremento de la cantidad de datos presentes en Internet, surge la necesidad de que estos sigan un estándar para facilitar su explotación. Además, para que este conocimiento sea interpretable por las máquinas, es necesario que esté en un formato estructurado. Los knowledge graphs responden a esta necesidad de estructurar el conocimiento de manera que este sea fácilmente explotable por una máquina. Uno de los principales ejemplos de knowledge graph es el de DBpedia, que extrae la mayor parte de su conocimiento de las infoboxes de Wikipedia, una de las bases de datos predominantes de la Web. En concreto, la ontología de DBpedia define una jerarquía de clases donde cada recurso tiene más de un tipo. La información que aportan estos tipos es de gran importancia, ya que la precisión y cantidad los tipos definidos para cada recurso de DBpedia incrementa la calidad de los datos obtenidos al realizar consultas sobre estos. Sin embargo, alrededor de un 16 % de los recursos de DBpedia no tiene ningún tipo asignado [1]. La aproximación de Rico et al. [1] proporciona un clasificador multiclase, utilizando la librería C5.0, que obtiene mejores resultados que otros métodos del estado del arte como SDType [2]. Sin embargo, este enfoque tenía una limitación: no permitía su uso con versiones recientes de DBpedia debido a un tamaño excesivo de los datasets. Por tanto, solo permitía su uso con datasets de versiones antiguas de DBpedia de menor tamaño (con menos recursos). En este trabajo se presenta la solución a esta limitación. Primero hubo que identificar la fuente de esta limitación. Se identificó inicialmente a la librería C5.0, pero hubo que realizar un estudio en profundidad. Una vez solventado, gracias a este trabajo se pueden procesar datasets de cualquier tamaño. Esto permite que se pueda emplear el clasificador multiclase de Rico et al. [1] con las versiones más recientes de la DBpedia española e inglesa. Adicionalmente, este trabajo ha permitido que se pueden generar semanalmente los datasets con las predicciones de tipos con cada actualización de DBpedia, poniéndolos a disposición de la comunidad de DBpedia mediante la plataforma DBpedia Databus.---ABSTRACT---With the increase in the amount of data present on the Internet, the need arises for these to follow a standard to facilitate their exploitation. Moreover, for this knowledge to be interpretable by machines, it needs to be in a structured format. Knowledge graphs respond to this need to structure knowledge in such a way that it is easily exploitable by a machine. One of the greatest exponents of knowledge graphs is DBpedia, which draws most of its knowledge from the infoboxes on Wikipedia, one of the predominant databases on the Web. Specifically, the DBpedia ontology defines a class hierarchy where each resource has more than one type. The information provided by these types is of great importance, since the correctness and quantity of the types defined for each DBpedia resource increases the quality of the data obtained when making inquiries about them. However, about 16 % of the DBpedia resources do not have any assigned type [1]. The Rico et al. [1] approach provides a multiclass classifier, using the C5.0 library, which achieves better results than other state-of-the-art methods such as SDType [2]. However, this approach had a limitation: it did not allow its use with recent versions of DBpedia due to the excessive size of the datasets. Therefore, it only allowed its use with datasets from older versions of DBpedia of smaller size (fewer resources). In this work the solution to this limitation is presented. First, the cause of this limitation had to be identified. The issue C5.0 was initially identified in the C5.0 library, however an in-depth study had to be carried out. Once solved, thanks to this work, datasets of any size can be processed. This allows the Rico et al. multi-class classifier to be used with the most recent versions of the Spanish and English DBpedia. Additionally, this work has allowed the datasets with the type predictions to be generated weekly with each DBpedia update, making them available to the DBpedia community through the DBpedia Databus platform.

More information

Item ID: 68636
DC Identifier: https://oa.upm.es/68636/
OAI Identifier: oai:oa.upm.es:68636
Deposited by: Biblioteca Facultad de Informatica
Deposited on: 25 Sep 2021 09:39
Last Modified: 25 Sep 2021 09:39
  • Logo InvestigaM (UPM)
  • Logo GEOUP4
  • Logo Open Access
  • Open Access
  • Logo Sherpa/Romeo
    Check whether the anglo-saxon journal in which you have published an article allows you to also publish it under open access.
  • Logo Dulcinea
    Check whether the spanish journal in which you have published an article allows you to also publish it under open access.
  • Logo de Recolecta
  • Logo del Observatorio I+D+i UPM
  • Logo de OpenCourseWare UPM