Event extraction from Spanish Workers’ Statute using Large Language Models

Argüelles Terrón, Gabriela (2023). Event extraction from Spanish Workers’ Statute using Large Language Models. Thesis (Master thesis), E.T.S. de Ingenieros Informáticos (UPM).

Description

Title: Event extraction from Spanish Workers’ Statute using Large Language Models
Author/s:
  • Argüelles Terrón, Gabriela
Contributor/s:
Item Type: Thesis (Master thesis)
Masters title: Ciencia de Datos
Date: July 2023
Subjects:
Faculty: E.T.S. de Ingenieros Informáticos (UPM)
Department: Lingüistica Aplicada a la Ciencia y a la Tecnología
Creative Commons Licenses: Recognition - No derivative works - Non commercial

Full text

[thumbnail of TFM_GABRIELA_ARGUELLES_TERRON.pdf] PDF - Requires a PDF viewer, such as GSview, Xpdf or Adobe Acrobat Reader
Download (1MB)

Abstract

El complejo edificio de principios y normas que regulan nuestras relaciones en la sociedad, al que llamamos Derecho, se sostiene sobre un entramado de documentos esencialmente en forma de texto y que los profesionales del derecho consultan una y otra vez. Los recientes avances tecnológicos en el área de la computación están transformando la manera en que dicha información es consultada. El avance de los Modelos de Lenguaje Extensos es uno de los mayores hitos dentro del Procesamiento del Lenguaje Natural y sus habilidades para procesar textos tan complejos como lo son las leyes, los hacen candidatos ideales para aplicarlos al dominio legal. En ese sentido, este trabajo se propuso como objetivo el procesamiento de uno de los textos más importantes dentro de la ley española: el Estatuto de los Trabajadores.

El procesamiento llevado a cabo de esta legislación incluye la extracción de los eventos que determinan cada uno de sus artículos utilizando el Modelo de Lenguaje Extenso GPT-3.5, y la representación de las entidades involucradas en el evento y las relaciones entre ellas en un grafo de la Web Semántica. Para ello, se desarrolló una metodología de tres etapas para investigar el estado del arte, experimentar distintos escenarios aplicando el modelo seleccionado y, finalmente, procesar el texto completo del Estatuto de los Trabajadores Español. Los experimentos, realizados con GPT-3.5 y los escasos datos anotados, incluyeron pruebas de aprendizaje con cero o pocos ejemplos. El escenario seleccionado logró mejorar los resultados generales obtenidos en investigaciones pasadas en 0.2 puntos de la métrica F1. La aplicación de este enfoque en el texto completo del Estatuto logra extraer aproximadamente 1500 relaciones y 1700 entidades distintas. Por último, este trabajo propone una estragia que permite convertir las relaciones legales extraídas en elementos de un grafo semántico.

Las evidencias de estas contribuciones son un conjunto de datos con el texto del Estatuto de los Trabajadores Español divido en oraciones atómicas, todos los eventos y relaciones extraídos del texto completo y, finalmente, la representación de la información extraída en un grafo RDF. Todos estos recursos se encuentran públicos a través de las plataformas Zenodo y GitHub.

ABSTRACT

The complex edifice of principles and rules that regulate our relationships in society, which we call Law, is supported by a web of documents essentially in text form that legal professionals consult repeatedly. Recent technological advances in the area of computing are transforming the way in which such information is queried. The advances in Large Language Models are one of the major milestones in Natural Language Processing. Their abilities to process texts as complex as laws make them ideal candidates for application to the legal domain. In that sense, this work aims to process one of the most important texts within the Spanish law: Workers’ Statute.

The processing carried out on this legislation includes extracting the events that determine each of its articles using the Extended Language Model GPT-3.5, and the representation of the entities involved in the event and the relationships between them in a Semantic Web graph. For this purpose, a three-stage methodology was developed to investigate the state-of-the-art, to experiment with different scenarios applying the selected model, and, finally, to process the complete text of the Spanish Workers’ Statute. The experiments, performed with GPT-3.5 and the sparse annotated data included learning tests with zero or few examples. The selected scenario improved the overall results obtained in past research by 0.2 points on the F1 metric. Applying this approach to the Statute’s full text extracts approximately 1500 relationships and 1700 distinct entities. Finally, this work proposes a strategy to convert the extracted legal relations into elements of a semantic graph.

These contributions are in the form of a dataset with the Spanish Workers’ Statute text divided into atomic sentences, all the events and relations extracted from the full text, and, finally, the representation of the extracted information in an RDF graph. All these resources are publicly available through the Zenodo and GitHub platforms.

More information

Item ID: 75904
DC Identifier: https://oa.upm.es/75904/
OAI Identifier: oai:oa.upm.es:75904
Deposited by: Biblioteca Facultad de Informatica
Deposited on: 15 Sep 2023 10:30
Last Modified: 15 Sep 2023 10:30
  • Logo InvestigaM (UPM)
  • Logo GEOUP4
  • Logo Open Access
  • Open Access
  • Logo Sherpa/Romeo
    Check whether the anglo-saxon journal in which you have published an article allows you to also publish it under open access.
  • Logo Dulcinea
    Check whether the spanish journal in which you have published an article allows you to also publish it under open access.
  • Logo de Recolecta
  • Logo del Observatorio I+D+i UPM
  • Logo de OpenCourseWare UPM