Aumento de datos basado en recursos lingüísticos para RAG sobre textos legales en español

Rodríguez Limón, Carlos (2025). Aumento de datos basado en recursos lingüísticos para RAG sobre textos legales en español. Trabajo Fin de Grado / Proyecto Fin de Carrera, E.T.S. de Ingenieros Informáticos (UPM), Boadilla del Monte.

Descripción

Título: Aumento de datos basado en recursos lingüísticos para RAG sobre textos legales en español
Autor/es:
  • Rodríguez Limón, Carlos
Director/es:
Tipo de Documento: Trabajo Fin de Grado o Proyecto Fin de Carrera
Grado: Grado en Matemáticas e Informática
Fecha: Enero 2025
Materias:
ODS:
Escuela: E.T.S. de Ingenieros Informáticos (UPM)
Departamento: Lingüistica Aplicada a la Ciencia y a la Tecnología
Licencias Creative Commons: Reconocimiento - Sin obra derivada - No comercial

Texto completo

[thumbnail of TFG_CARLOS_RODRIGUEZ_LIMON.pdf] PDF (Portable Document Format) - Se necesita un visor de ficheros PDF, como GSview, Xpdf o Adobe Acrobat Reader
Descargar (2MB)

Resumen

Este trabajo aborda el desarrollo y evaluación de un sistema basado en el paradigma Retrieval-Augmented Generation (RAG) aplicado al ámbito jurídico en español. El dominio jurídico es un campo altamente especializado, caracterizado por un lenguaje técnico y una documentación compleja, cuya accesibilidad pública es limitada. Además, en el contexto del español, se ha avanzado relativamente poco en la automatización de tareas legales en comparación con otros idiomas como el inglés. Este escenario subraya la necesidad de explorar soluciones tecnológicas que puedan facilitar el acceso y procesamiento de información en este ámbito. Utilizando modelos de lenguaje como Mistral, Llama3.2 y Granite3-dense, junto con modelos de embeddings como PlanTL-GOB-ES/RoBERTalex y PlanTL-GOBES/roberta-base-bne, se implementó un sistema capaz de generar respuestas relevantes y contextualizadas a partir de documentos legales. La investigación también exploró la incorporación de una técnica de expansión de consultas mediante sinónimos y términos relacionados, evaluando su impacto en la calidad de las respuestas generadas. Para ello, se analizaron los resultados mediante métricas estándar como ROUGE, F1-Score, SAS y BERTScore. Los resultados muestran que el uso de RAG mejora significativamente la calidad de las respuestas generadas, destacando el modelo Mistral como el más eficaz en la mayoría de las métricas. Sin embargo, la técnica de expansión de consultas no presentó mejoras significativas debido a las limitaciones del dataset de sinónimos empleado. En conclusión, este trabajo demuestra la viabilidad y efectividad del uso de RAG en el ámbito jurídico, al tiempo que identifica áreas clave para futuras investigaciones, como la ampliación de los datasets utilizados y la implementación de técnicas adicionales de pre y post procesamiento.

ABSTRACT

This work focuses on the development and evaluation of a system based on the Retrieval-Augmented Generation (RAG) paradigm, applied to the legal domain in Spanish. The legal field is highly specialized, characterized by technical language and complex documentation, often with limited public accessibility. Moreover, advancements in automating legal tasks in Spanish remain relatively scarce compared to other languages, such as English. This highlights the need for technological solutions to improve access to and processing of legal information. The system was implemented using language models such as Mistral, Llama3.2, and Granite3-dense, alongside embedding models like PlanTL-GOB-ES/RoBERTalex and PlanTL-GOB-ES/roberta-base-bne. It is designed to generate relevant and contextualized responses from legal documents. Additionally, the research explored the integration of query expansion techniques using synonyms and related terms, analyzing their impact on the quality of generated responses. Standard metrics such as ROUGE, F1-Score, SAS, and BERTScore were employed to evaluate system performance. The results demonstrate that RAG significantly enhances response quality, with the Mistral model outperforming others in most metrics. However, query expansion techniques did not yield significant improvements, largely due to limitations in the synonym dataset used. In conclusion, this study demonstrates the viability and effectiveness of employing RAG in the legal domain while identifying key areas for future research, such as expanding datasets and incorporating additional pre and post-processing techniques.

Más información

ID de Registro: 87925
Identificador DC: https://oa.upm.es/87925/
Identificador OAI: oai:oa.upm.es:87925
Depositado por: Biblioteca Facultad de Informatica
Depositado el: 20 Feb 2025 09:26
Ultima Modificación: 20 Feb 2025 09:26