Legal Engine Search (LES): motor de búsqueda de jurisprudencia

Pintor Cabezón, Pablo (2025). Legal Engine Search (LES): motor de búsqueda de jurisprudencia. Trabajo Fin de Grado / Proyecto Fin de Carrera, E.T.S. de Ingenieros Informáticos (UPM), Boadilla del Monte.

Descripción

Título: Legal Engine Search (LES): motor de búsqueda de jurisprudencia
Autor/es:
  • Pintor Cabezón, Pablo
Director/es:
Tipo de Documento: Trabajo Fin de Grado o Proyecto Fin de Carrera
Grado: Grado en Matemáticas e Informática
Fecha: Enero 2025
Materias:
ODS:
Palabras Clave Informales: Búsqueda semántica, Embeddings densos, Motor de búsqueda, Jurisprudencia española, Aprendizaje profundo, Análisis comparativo, Consenso de LLMs, Semantic search, Dense embeddings, Search engine, Spanish case law, Deep learning, LLMs, Fine-tuning, Comparative analysis, Reranking, LLM consensus
Escuela: E.T.S. de Ingenieros Informáticos (UPM)
Departamento: Matemática Aplicada a las Tecnologías de la Información y las Comunicaciones
Licencias Creative Commons: Reconocimiento - Sin obra derivada - No comercial

Texto completo

[thumbnail of TFG_PABLO_PINTOR_CABEZON.pdf] PDF (Portable Document Format) - Acceso permitido solamente a usuarios en el campus de la UPM - Se necesita un visor de ficheros PDF, como GSview, Xpdf o Adobe Acrobat Reader
Descargar (1MB)

Resumen

Este Trabajo de Fin de Grado (TFG) aborda el diseño, desarrollo y evaluación de un motor de búsqueda semántica para la recuperación eficiente de jurisprudencia española. Se realiza un análisis comparativo del rendimiento de diferentes modelos de recuperación de información, incluyendo métodos tradicionales sparse (como BM25) y modelos avanzados basados en embeddings densos (como RoBERTa-BNE, Sentence Transformers y ColBERT), con el objetivo de mejorar la accesibilidad y precisión de los resultados. La motivación principal surge de la necesidad de superar las limitaciones de los sistemas actuales, que se basan en la coincidencia exacta de términos y no capturan la riqueza semántica del lenguaje, como sinónimos, expresiones equivalentes y matices contextuales, especialmente relevantes en el ámbito jurídico. La metodología aplicada se divide en varias etapas. Primero, se recolectó y preprocesó un corpus de sentencias judiciales, obtenidas del buscador público del Centro de Documentación Judicial (CENDOJ), aplicando técnicas de extracción, normalización y segmentación del texto. Luego, se crearon índices vectoriales integrando distintos modelos en un motor de búsqueda, donde cada documento se representó mediante embeddings densos. Para la evaluación de la relevancia, se desarrolló un método novedoso basado en el consenso de múltiples Large Language Models (LLMs) y una posterior revisión manual. Se diseñaron consultas jurídicas (queries) específicas para evaluar la capacidad de los modelos de recuperar documentos relevantes en función del contexto semántico. Los resultados experimentales demuestran que las aproximaciones sparse, como BM25, presentan robustez y velocidad en la recuperación inicial. Por otro lado, los métodos densos, aunque computacionalmente más costosos, y no siempre mejoran la precisión y el recall en la recuperación inicial, muestran un rendimiento superior en la reordenación (reranking) de documentos. La combinación de una recuperación inicial sparse con un sistema de reranking basado en embeddings densos se presenta como una solución prometedora para el sector jurídico español. Finalmente, se analizan las limitaciones encontradas y se proponen futuras líneas de investigación. Entre ellas, destacan la incorporación de técnicas de ajuste fino avanzadas y el aprendizaje por tripletas contrastivas (triplet contrastive learning) para refinar la similitud semántica entre consultas y documentos.

ABSTRACT

This Final Degree Project (TFG) addresses the design, development and evaluation of a semantic search engine for the efficient retrieval of Spanish case law. This work focuses on the comparative analysis of the performance of different information retrieval models, including traditional exact word matching methods (sparse retrieval, such as BM25) and more advanced models based on dense embeddings (such as RoBERTa-BNE, Sentence Transformers and ColBERT), with the aim of improving the accessibility and accuracy of the results in the Spanish legal context. The main motivation arises from the need to overcome the limitations of current systems, which, by being based on exact term matching, fail to capture the semantic richness of the language, such as synonyms, equivalent expressions and contextual nuances, especially relevant in the legal field. The methodology used is made up of several stages. Initially, a corpus of court decisions was collected and preprocessed, all of them obtained manually from the public search engine of the Judicial Documentation Center (CENDOJ), applying text extraction, normalization, and segmentation techniques. Subsequently, vector indexes were created and different models were integrated into a search engine, where each document was represented by dense embeddings. For the relevance assessment, a novel method based on the consensus of multiple Large Language Models (LLMs) was implemented, complemented by subsequent verification by legal experts. Specific legal queries were designed to evaluate the capacity of the models to retrieve relevant documents based on the semantic context. The experimental results demonstrate that sparse approaches, such as BM25, present remarkable robustness and speed in the initial retrieval of documents. On the other hand, dense methods, although they may be computationally more expensive and do not always optimize precision and recall in initial retrieval, do show superior performance in document reranking. It is highlighted that the combination of an initial sparse retrieval with a reranking system based on dense embeddings is presented as a particularly promising solution for the Spanish legal sector. Finally, a critical analysis of the limitations found is carried out and future lines of research are proposed. Among them, the incorporation of advanced fine-tuning techniques stands out, such as triplet contrastive learning, to refine the semantic similarity between queries and documents. Likewise, the expansion of the corpus with a greater number of judicial decisions and the development of user interfaces based on reasoning LLMs are proposed. These interfaces would have direct access to case law search tools, potentially speeding up the work of lawyers, legal professionals, and users in general, and democratising access to legal information in Spain.

Más información

ID de Registro: 87939
Identificador DC: https://oa.upm.es/87939/
Identificador OAI: oai:oa.upm.es:87939
Depositado por: Biblioteca Facultad de Informatica
Depositado el: 20 Feb 2025 09:03
Ultima Modificación: 24 Feb 2025 08:10