Full text
Preview |
PDF
- Requires a PDF viewer, such as GSview, Xpdf or Adobe Acrobat Reader
Download (1MB) | Preview |
Martín Chozas, Patricia ORCID: https://orcid.org/0000-0002-8922-7521
(2018).
Towards a Linked Open Data Cloud of language resources in the legal domain.
Thesis (Master thesis), E.T.S. de Ingenieros Informáticos (UPM).
Title: | Towards a Linked Open Data Cloud of language resources in the legal domain |
---|---|
Author/s: |
|
Contributor/s: |
|
Item Type: | Thesis (Master thesis) |
Masters title: | Inteligencia Artificial |
Date: | 2018 |
Subjects: | |
Faculty: | E.T.S. de Ingenieros Informáticos (UPM) |
Department: | Inteligencia Artificial |
Creative Commons Licenses: | Recognition - No derivative works - Non commercial |
Preview |
PDF
- Requires a PDF viewer, such as GSview, Xpdf or Adobe Acrobat Reader
Download (1MB) | Preview |
The use of Semantic Web technologies is progressively increasing since they mean a
great help for both machines and humans. In recent years, many institutions and
companies are taking the leap to Semantic Web technologies, introducing Artificial
Intelligence applications in their processes. In the same way, these organisations
are opting for open data formats to publish their datasets, since it translates into a
seamless exchange of information with other public or private institutions.
In this scenario, Linked Data emerges as an effort to link related data and suggests
best practices for exposing, sharing and actually connecting those pieces of
data. Many resources from different domains -geography, life sciences, media, etc.-
have been published and connected according to these recommendations, conforming
what is known as the Linked Open Data cloud or LOD cloud. Within this cloud,
a more specific group of linguistic datasets can be found, identified as the Linguistic
Linked Open Data cloud (LLOD cloud).
However, the legal domain is currently underrepresented in the LOD cloud, preventing
legal experts from taking advantage of the benefits that interconnecting
different types of resources can have.
The work presented here is intended to identify open linguistic datasets of the
legal domain -and create them in case they do not exist- and expose them as linked
data to contribute to the LLOD cloud. The result of this work will also be part
of a Legal Knowledge Graph, that is one of the main objectives of the ongoing
project Lynx, a European innovation action to build smart compliance services for
multilingual Europe.
With the aim of contributing to the LLOD cloud with legal language resources,
the steps proposed by established methodologies for the conversion of linguistic
resources to linked data formats (RDF) have been duly followed.
When no resources were available, legal language resources have been generated
from scratch, extracting the terminology from legal corpora with automatic term
extraction tools.
This work also relied on Semantic Web models (SKOS, specifically) to convert
the identified resources, and link them to other available resources in the LOD cloud.
The result of this work has been a review of linguistic resources in the legal domain
and of the models used to represent those resources in the Web of Data; a set of five
terminologies published according to the linked data principles; some recommendations
and adaptations in the methodology followed for the RDF conversion process;
a preliminary evaluation of term extraction tools and data management tools; and
the documentation of all identified and newly-created resources in a public data
portal. Accordingly, the outcome of the whole process shapes a first approach to
a Linguistic Legal Linked Open Data cloud that will be used to annotate, classify
and translate the legal corpora contained in the Legal Knowledge Graph that will
be generated in the Lynx project.---ABSTRACT---La aplicación de tecnologías de la Web Semántica se está extendiendo progresivamente,
ya que representan una gran ayuda tanto para máquinas como para humanos.
En los últimos años, muchas empresas e instituciones han dado el salto a la Web
Semántica y han introducido la Inteligencia Artificial en su día a día. Del mismo
modo, estas organizaciones han comenzado a publicar sus datos en formatos de datos
abiertos, pues fomentan el intercambio de información entre otras instituciones.
En este punto nacen los Datos Enlazados, una tecnología que propone pautas
adecuadas para exponer, compartir y conectar conjuntos de datos. Muchos recursos
de diferentes dominios -geografía, ciencias, multimedia, etc.- ya se han publicado
y enlazado mediante estas recomendaciones, y han dado lugar a una nube de
Datos Abiertos Enlazados (LOD cloud, en inglés). Dentro de esta nube se encuentra
otro conjunto específico de datos lingüísticos: Linguistic Linked Open Data cloud
(LLOD). Sin embargo, el dominio jurídico está poco representado en dicha nube, lo
que impide que los profesionales de este campo puedan aprovechar las ventajas de
interconectar diferentes documentos entre sí.
Este trabajo se centra en identificar conjuntos de datos lingüísticos abiertos del
dominio jurídico (y crearlos, si es necesario), para exponerlos como datos enlazados y
contribuir así al enriquecimiento de la LLOD. El resultado de este proceso formará
parte del Grafo de Conocimiento Jurídico desarrollado en el proyecto Lynx, que
pretende ayudar a difundir la información jurídica en la Unión Europea.
Con el objetivo de contribuir a la LLOD con recursos lingüísticos jurídicos, se
han seguido metodologías establecidas para la conversión de recursos lingüísticos a
formatos de enlazado de datos (RDF). Si no se han encontrado recursos disponibles,
se han generado desde cero mediante extracción terminológica de corpus jurídicos
con herramientas automáticas de extracción de términos.
Este trabajo también ha utilizado modelos de la Web Semántica (SKOS, en concreto)
para convertir los recursos identificados y enlazarlos con otros disponibles en
la LLOD. El resultado de este trabajo consiste en una evaluación de los recursos
lingüísticos del dominio jurídico disponibles actualmente; un análisis de los modelos
utilizados para representar dichos recursos en la Web de Datos; varias recomendaciones
óon de datos; una
evaluación preliminar de las herramientas de extracción de términos y de conversión
a RDF; la documentación de todos los recursos identificados y generados en un portal
de datos público; y un conjunto de cinco recursos lingüísticos publicados según
los principios de los datos enlazados y conectados con otros recursos abiertos de la
nube de datos enlazados.
De esta forma, el producto de todo el proceso da forma a la primera versión
de la nube de Datos Lingüísticos Enlazados del dominio jurídico que se utilizará
para anotar, clasificar y traducir los documentos jurídicos que conforman el Grafo
de Conocimiento Jurídico que se creará en el proyecto Lynx.
Item ID: | 51629 |
---|---|
DC Identifier: | https://oa.upm.es/51629/ |
OAI Identifier: | oai:oa.upm.es:51629 |
Deposited by: | Biblioteca Facultad de Informatica |
Deposited on: | 16 Jul 2018 05:29 |
Last Modified: | 01 Jun 2022 12:56 |