Towards a Linked Open Data Cloud of language resources in the legal domain

Martín Chozas, Patricia (2018). Towards a Linked Open Data Cloud of language resources in the legal domain. Tesis (Master), E.T.S. de Ingenieros Informáticos (UPM).

Descripción

Título: Towards a Linked Open Data Cloud of language resources in the legal domain
Autor/es:
  • Martín Chozas, Patricia
Director/es:
  • Corcho, Oscar
  • Montiel-Ponsada, Elena
Tipo de Documento: Tesis (Master)
Título del máster: Inteligencia Artificial
Fecha: 2018
Materias:
Escuela: E.T.S. de Ingenieros Informáticos (UPM)
Departamento: Inteligencia Artificial
Licencias Creative Commons: Reconocimiento - Sin obra derivada - No comercial

Texto completo

[img]
Vista Previa
PDF (Document Portable Format) - Se necesita un visor de ficheros PDF, como GSview, Xpdf o Adobe Acrobat Reader
Descargar (1MB) | Vista Previa

Resumen

The use of Semantic Web technologies is progressively increasing since they mean a great help for both machines and humans. In recent years, many institutions and companies are taking the leap to Semantic Web technologies, introducing Artificial Intelligence applications in their processes. In the same way, these organisations are opting for open data formats to publish their datasets, since it translates into a seamless exchange of information with other public or private institutions. In this scenario, Linked Data emerges as an effort to link related data and suggests best practices for exposing, sharing and actually connecting those pieces of data. Many resources from different domains -geography, life sciences, media, etc.- have been published and connected according to these recommendations, conforming what is known as the Linked Open Data cloud or LOD cloud. Within this cloud, a more specific group of linguistic datasets can be found, identified as the Linguistic Linked Open Data cloud (LLOD cloud). However, the legal domain is currently underrepresented in the LOD cloud, preventing legal experts from taking advantage of the benefits that interconnecting different types of resources can have. The work presented here is intended to identify open linguistic datasets of the legal domain -and create them in case they do not exist- and expose them as linked data to contribute to the LLOD cloud. The result of this work will also be part of a Legal Knowledge Graph, that is one of the main objectives of the ongoing project Lynx, a European innovation action to build smart compliance services for multilingual Europe. With the aim of contributing to the LLOD cloud with legal language resources, the steps proposed by established methodologies for the conversion of linguistic resources to linked data formats (RDF) have been duly followed. When no resources were available, legal language resources have been generated from scratch, extracting the terminology from legal corpora with automatic term extraction tools. This work also relied on Semantic Web models (SKOS, specifically) to convert the identified resources, and link them to other available resources in the LOD cloud. The result of this work has been a review of linguistic resources in the legal domain and of the models used to represent those resources in the Web of Data; a set of five terminologies published according to the linked data principles; some recommendations and adaptations in the methodology followed for the RDF conversion process; a preliminary evaluation of term extraction tools and data management tools; and the documentation of all identified and newly-created resources in a public data portal. Accordingly, the outcome of the whole process shapes a first approach to a Linguistic Legal Linked Open Data cloud that will be used to annotate, classify and translate the legal corpora contained in the Legal Knowledge Graph that will be generated in the Lynx project.---ABSTRACT---La aplicación de tecnologías de la Web Semántica se está extendiendo progresivamente, ya que representan una gran ayuda tanto para máquinas como para humanos. En los últimos años, muchas empresas e instituciones han dado el salto a la Web Semántica y han introducido la Inteligencia Artificial en su día a día. Del mismo modo, estas organizaciones han comenzado a publicar sus datos en formatos de datos abiertos, pues fomentan el intercambio de información entre otras instituciones. En este punto nacen los Datos Enlazados, una tecnología que propone pautas adecuadas para exponer, compartir y conectar conjuntos de datos. Muchos recursos de diferentes dominios -geografía, ciencias, multimedia, etc.- ya se han publicado y enlazado mediante estas recomendaciones, y han dado lugar a una nube de Datos Abiertos Enlazados (LOD cloud, en inglés). Dentro de esta nube se encuentra otro conjunto específico de datos lingüísticos: Linguistic Linked Open Data cloud (LLOD). Sin embargo, el dominio jurídico está poco representado en dicha nube, lo que impide que los profesionales de este campo puedan aprovechar las ventajas de interconectar diferentes documentos entre sí. Este trabajo se centra en identificar conjuntos de datos lingüísticos abiertos del dominio jurídico (y crearlos, si es necesario), para exponerlos como datos enlazados y contribuir así al enriquecimiento de la LLOD. El resultado de este proceso formará parte del Grafo de Conocimiento Jurídico desarrollado en el proyecto Lynx, que pretende ayudar a difundir la información jurídica en la Unión Europea. Con el objetivo de contribuir a la LLOD con recursos lingüísticos jurídicos, se han seguido metodologías establecidas para la conversión de recursos lingüísticos a formatos de enlazado de datos (RDF). Si no se han encontrado recursos disponibles, se han generado desde cero mediante extracción terminológica de corpus jurídicos con herramientas automáticas de extracción de términos. Este trabajo también ha utilizado modelos de la Web Semántica (SKOS, en concreto) para convertir los recursos identificados y enlazarlos con otros disponibles en la LLOD. El resultado de este trabajo consiste en una evaluación de los recursos lingüísticos del dominio jurídico disponibles actualmente; un análisis de los modelos utilizados para representar dichos recursos en la Web de Datos; varias recomendaciones óon de datos; una evaluación preliminar de las herramientas de extracción de términos y de conversión a RDF; la documentación de todos los recursos identificados y generados en un portal de datos público; y un conjunto de cinco recursos lingüísticos publicados según los principios de los datos enlazados y conectados con otros recursos abiertos de la nube de datos enlazados. De esta forma, el producto de todo el proceso da forma a la primera versión de la nube de Datos Lingüísticos Enlazados del dominio jurídico que se utilizará para anotar, clasificar y traducir los documentos jurídicos que conforman el Grafo de Conocimiento Jurídico que se creará en el proyecto Lynx.

Más información

ID de Registro: 51629
Identificador DC: http://oa.upm.es/51629/
Identificador OAI: oai:oa.upm.es:51629
Depositado por: Biblioteca Facultad de Informatica
Depositado el: 16 Jul 2018 05:29
Ultima Modificación: 06 Sep 2018 09:06
  • GEO_UP4
  • Open Access
  • Open Access
  • Sherpa-Romeo
    Compruebe si la revista anglosajona en la que ha publicado un artículo permite también su publicación en abierto.
  • Dulcinea
    Compruebe si la revista española en la que ha publicado un artículo permite también su publicación en abierto.
  • Recolecta
  • InvestigaM
  • Observatorio I+D+i UPM
  • OpenCourseWare UPM