Evaluación de herramientas para la construcción de grafos de conocimiento a partir de datos heterogéneos

Borrero García, Francisco (2020). Evaluación de herramientas para la construcción de grafos de conocimiento a partir de datos heterogéneos. Thesis (Master thesis), E.T.S. de Ingenieros Informáticos (UPM).

Description

Title: Evaluación de herramientas para la construcción de grafos de conocimiento a partir de datos heterogéneos
Author/s:
  • Borrero García, Francisco
Contributor/s:
  • Chaves Fraga, David
  • Corcho García, Óscar
Item Type: Thesis (Master thesis)
Masters title: Ciencia de Datos
Date: October 2020
Subjects:
Faculty: E.T.S. de Ingenieros Informáticos (UPM)
Department: Inteligencia Artificial
Creative Commons Licenses: Recognition - No derivative works - Non commercial

Full text

[img]
Preview
PDF - Requires a PDF viewer, such as GSview, Xpdf or Adobe Acrobat Reader
Download (996kB) | Preview

Abstract

En estos días una gran cantidad de datasets se encuentran en distintos formatos y con diversos tamaños en internet. Con el auge de la web semántica surge la necesidad de convertir estos datasets en un modelo de datos estándar como lo es el RDF, para publicarlos y compartirlos. RDF es un modelo de datos que consta de un sistema de tripletas compuesto por un sujeto, predicado y objeto, y al conjunto de estas tripletas es lo que llamamos grafos de conocimiento o grafo RDF. En la actualidad existen diversas herramientas y lenguajes de mapeo que facilitan el trabajo de convertir los dataset que se encuentran en distintos formatos en grafos RDF. En la comunidad semántica también existen distintos acercamientos de calidad en los grafos RDF publicados, pero no existe un marco de trabajo que evalúe herramientas que construyan grafos de conocimiento a partir de datos heterogéneos, tanto en el proceso de generación como en la calidad de los resultados. En este trabajo nos enfocamos en evaluar estas herramientas, con diferentes casos de usos de acuerdo al tamaño y origen de los datos, en el cual mediante comparaciones facilitara a los profesionales elegir la mejor herramienta a utilizar en determinado caso de uso, y al igual de importante la mejora continua por parte del equipo de desarrolladores que las crearon y mantienen. Los datos utilizados en nuestra evaluación hacen parte de GTFS Madrid, un estándar de facto desarrollado por Google para la descripción de horarios, rutas, tarifas de transporte público, y se han transformado a varios formatos (CSV, JSON, y XML), al igual que escalados a distintos tamaños con ayuda de una herramienta propuesta en la comunidad semántica. Proponemos el diseño de un sistema de evaluación, al igual que un conjunto de consultas SPARQL para ayudar a la evaluación en la calidad de los grafos generados por las herramientas.---ABSTRACT---Nowadays, many datasets in different formats and sizes are found on the internet. Due to the rise of the semantic web, there is a need to convert these datasets into a standard data model, such as RDF, in order to publish and share them. RDF is a data model that consists of triples made up of a subject, predicate and object. This set of triples is what we call knowledge graphs or RDF graph. Currently, there are a variety of tools and mapping languages that facilitate the conversion of datasets, that are in different formats, into RDF graphs. In the semantic community, there are also different approaches to evaluate the quality of the published RDF graphs. However, there is no framework to evaluate the tools that build the knowledge graphs from the heterogeneous data, alongside the generation process and the quality of the results. In this piece of research, we will focus on evaluating the outcome of different test cases according to the size and source of the data and then compare the results. Upon completion, it will enable professionals to choose which tool is the best to use for a specific case. Furthermore, the results will aid the continual improvement of the tools by the team of developers who created and maintain them. The data used in our evaluation is part of GTFS Madrid, a de facto standard and is developed by Google for the description of schedules, routes and public transport rates. It has also been transformed into various formats (CSV, JSON, and XML) and scaled to different sizes with the help of a tool proposed in the semantic community. We propose the design of an evaluation system, as well as a set of SPARQL queries to help evaluate the quality of the graphs generated by the tools.

More information

Item ID: 65541
DC Identifier: http://oa.upm.es/65541/
OAI Identifier: oai:oa.upm.es:65541
Deposited by: Biblioteca Facultad de Informatica
Deposited on: 24 Nov 2020 15:37
Last Modified: 24 Nov 2020 15:37
  • Logo InvestigaM (UPM)
  • Logo GEOUP4
  • Logo Open Access
  • Open Access
  • Logo Sherpa/Romeo
    Check whether the anglo-saxon journal in which you have published an article allows you to also publish it under open access.
  • Logo Dulcinea
    Check whether the spanish journal in which you have published an article allows you to also publish it under open access.
  • Logo de Recolecta
  • Logo del Observatorio I+D+i UPM
  • Logo de OpenCourseWare UPM