Conversión automática de licencias textuales a licencias digitales estructuradas

Sánchez Romero, Aida (2019). Conversión automática de licencias textuales a licencias digitales estructuradas. Thesis (Master thesis), E.T.S. de Ingenieros Informáticos (UPM).

Description

Title: Conversión automática de licencias textuales a licencias digitales estructuradas
Author/s:
  • Sánchez Romero, Aida
Contributor/s:
  • Rodríguez Doncel, Víctor
  • Corcho García, Óscar
Item Type: Thesis (Master thesis)
Masters title: Inteligencia Artificial
Date: 2019
Subjects:
Faculty: E.T.S. de Ingenieros Informáticos (UPM)
Department: Inteligencia Artificial
Creative Commons Licenses: Recognition - No derivative works - Non commercial

Full text

[img]
Preview
PDF - Requires a PDF viewer, such as GSview, Xpdf or Adobe Acrobat Reader
Download (2MB) | Preview

Abstract

La extracción de información es una de las principales áreas de estudio dentro de la Inteligencia Artificial. Esta tarea se centra en derivar información estructurada a partir de un documento no estructurado o semi-estructurado utilizando para ello técnicas de procesamiento del lenguaje natural (NLP). Estos documentos pueden ser muy variados, desde artículos de prensa hasta informes científicos. Por ello, y debido a la complejidad y ambigüedad del lenguaje natural (aun cuando el dominio está perfectamente acotado) ésta no es una tarea sencilla. De esta forma, la extracción de información ha sido estudiada en varios dominios muy restringidos involucrando a una gran comunidad de investigadores durante más de tres décadas. A pesar de ello, no es hasta hace poco más de 5 años que el término “legaltech” o tecnología jurídica comienza a tomar fuerza, el cual hace referencia al uso de la tecnología para ofrecer servicios jurídicos. Algunos de estos servicios abarcan: revisar contratos para encontrar cláusulas inaceptables o requeridas (LawGeex ); ayudar a detectar plazos, obligaciones o vigencias en los procesos de due diligence (Luminance); o analizar jurisprudencias con el fin de extraer información relevante para planear una estrategia procesal (Ravel Law). En este trabajo se crea un sistema software basado en este mismo concepto que es capaz de extraer la información relevante de una licencia escrita en lenguaje natural. Para ello, utiliza técnicas basadas en NLP centrándose, sobre todo, en el tipo de eventos (o acciones) que están permitidas, prohibidas y/o son requeridas. A partir de estos datos crea un RDF válido que los contiene junto con el nombre, la versión y el texto o código legal de la licencia. Algunos ejemplos del tipo de eventos que debe detectar y extraer son, entre otros, si se permite su uso comercial, copia, modificación o distribución; o si el usuario debe proporcionar el código fuente o acreditar al creador/los creadores de la misma.---ABSTRACT---Information Extraction is one of the main areas of focus inside Artificial Intelligence. This task focuses on deriving structured information from an unstructured or semi-structured document using Natural Language Processing (NLP) techniques. These documents can be very varied from press articles to scientific reports. Hence, this is not a simple task (even though the domain is perfectly limited) due to the complexity and ambiguity of natural language. Therefore, Information Extraction has been studied in several very restricted domains involving a large community of researchers for more than three decades. In spite of this, it is not until just over 5 years ago that the “legaltech” or legal technology concept began to prevail. This concept refers to the use of technology and softwares to offer legal services. Some of these services include review contracts to find unacceptable or required clauses (LawGeex ); help detect deadlines, obligations or validity in due diligence processes (Luminance); or analyze jurisprudence in order to extract relevant information to raise a procedural strategy (Ravel Law). In this work, we create a software system based on this concept. This system is able to extract the relevant information from a license written in natural language. Thus, it uses techniques based on NLP and, above all, it uses techniques in order to extract the type of events (or actions) that are allowed, required and/or forbidden. From this data it creates a valid RDF that contains them along with the name, version and text or legal code of the license. Consequently, the type of events that should be detected are, among others, if their commercial use, copy, distribution or modification is allowed or not. Other possible events should be detected could be if the user must provide the source code or credit the creator/s of the license.

More information

Item ID: 56030
DC Identifier: http://oa.upm.es/56030/
OAI Identifier: oai:oa.upm.es:56030
Deposited by: Biblioteca Facultad de Informatica
Deposited on: 05 Aug 2019 06:41
Last Modified: 05 Aug 2019 06:41
  • Logo InvestigaM (UPM)
  • Logo GEOUP4
  • Logo Open Access
  • Open Access
  • Logo Sherpa/Romeo
    Check whether the anglo-saxon journal in which you have published an article allows you to also publish it under open access.
  • Logo Dulcinea
    Check whether the spanish journal in which you have published an article allows you to also publish it under open access.
  • Logo de Recolecta
  • Logo del Observatorio I+D+i UPM
  • Logo de OpenCourseWare UPM