Texto completo
|
PDF (Portable Document Format)
- Acceso permitido solamente a usuarios en el campus de la UPM
- Se necesita un visor de ficheros PDF, como GSview, Xpdf o Adobe Acrobat Reader
Descargar (1MB) |
| Título: | Legal Engine Search (LES): motor de búsqueda de jurisprudencia |
|---|---|
| Autor/es: |
|
| Director/es: |
|
| Tipo de Documento: | Trabajo Fin de Grado o Proyecto Fin de Carrera |
| Grado: | Grado en Matemáticas e Informática |
| Fecha: | Enero 2025 |
| Materias: | |
| ODS: | |
| Palabras Clave Informales: | Búsqueda semántica, Embeddings densos, Motor de búsqueda, Jurisprudencia española, Aprendizaje profundo, Análisis comparativo, Consenso de LLMs, Semantic search, Dense embeddings, Search engine, Spanish case law, Deep learning, LLMs, Fine-tuning, Comparative analysis, Reranking, LLM consensus |
| Escuela: | E.T.S. de Ingenieros Informáticos (UPM) |
| Departamento: | Matemática Aplicada a las Tecnologías de la Información y las Comunicaciones |
| Licencias Creative Commons: | Reconocimiento - Sin obra derivada - No comercial |
|
PDF (Portable Document Format)
- Acceso permitido solamente a usuarios en el campus de la UPM
- Se necesita un visor de ficheros PDF, como GSview, Xpdf o Adobe Acrobat Reader
Descargar (1MB) |
Este Trabajo de Fin de Grado (TFG) aborda el diseño, desarrollo y evaluación de un motor de búsqueda semántica para la recuperación eficiente de jurisprudencia española. Se realiza un análisis comparativo del rendimiento de diferentes modelos de recuperación de información, incluyendo métodos tradicionales sparse (como BM25) y modelos avanzados basados en embeddings densos (como RoBERTa-BNE, Sentence Transformers y ColBERT), con el objetivo de mejorar la accesibilidad y precisión de los resultados. La motivación principal surge de la necesidad de superar las limitaciones de los sistemas actuales, que se basan en la coincidencia exacta de términos y no capturan la riqueza semántica del lenguaje, como sinónimos, expresiones equivalentes y matices contextuales, especialmente relevantes en el ámbito jurídico. La metodología aplicada se divide en varias etapas. Primero, se recolectó y preprocesó un corpus de sentencias judiciales, obtenidas del buscador público del Centro de Documentación Judicial (CENDOJ), aplicando técnicas de extracción, normalización y segmentación del texto. Luego, se crearon índices vectoriales integrando distintos modelos en un motor de búsqueda, donde cada documento se representó mediante embeddings densos. Para la evaluación de la relevancia, se desarrolló un método novedoso basado en el consenso de múltiples Large Language Models (LLMs) y una posterior revisión manual. Se diseñaron consultas jurídicas (queries) específicas para evaluar la capacidad de los modelos de recuperar documentos relevantes en función del contexto semántico. Los resultados experimentales demuestran que las aproximaciones sparse, como BM25, presentan robustez y velocidad en la recuperación inicial. Por otro lado, los métodos densos, aunque computacionalmente más costosos, y no siempre mejoran la precisión y el recall en la recuperación inicial, muestran un rendimiento superior en la reordenación (reranking) de documentos. La combinación de una recuperación inicial sparse con un sistema de reranking basado en embeddings densos se presenta como una solución prometedora para el sector jurídico español. Finalmente, se analizan las limitaciones encontradas y se proponen futuras líneas de investigación. Entre ellas, destacan la incorporación de técnicas de ajuste fino avanzadas y el aprendizaje por tripletas contrastivas (triplet contrastive learning) para refinar la similitud semántica entre consultas y documentos.
ABSTRACT
This Final Degree Project (TFG) addresses the design, development and evaluation of a semantic search engine for the efficient retrieval of Spanish case law. This work focuses on the comparative analysis of the performance of different information retrieval models, including traditional exact word matching methods (sparse retrieval, such as BM25) and more advanced models based on dense embeddings (such as RoBERTa-BNE, Sentence Transformers and ColBERT), with the aim of improving the accessibility and accuracy of the results in the Spanish legal context. The main motivation arises from the need to overcome the limitations of current systems, which, by being based on exact term matching, fail to capture the semantic richness of the language, such as synonyms, equivalent expressions and contextual nuances, especially relevant in the legal field. The methodology used is made up of several stages. Initially, a corpus of court decisions was collected and preprocessed, all of them obtained manually from the public search engine of the Judicial Documentation Center (CENDOJ), applying text extraction, normalization, and segmentation techniques. Subsequently, vector indexes were created and different models were integrated into a search engine, where each document was represented by dense embeddings. For the relevance assessment, a novel method based on the consensus of multiple Large Language Models (LLMs) was implemented, complemented by subsequent verification by legal experts. Specific legal queries were designed to evaluate the capacity of the models to retrieve relevant documents based on the semantic context. The experimental results demonstrate that sparse approaches, such as BM25, present remarkable robustness and speed in the initial retrieval of documents. On the other hand, dense methods, although they may be computationally more expensive and do not always optimize precision and recall in initial retrieval, do show superior performance in document reranking. It is highlighted that the combination of an initial sparse retrieval with a reranking system based on dense embeddings is presented as a particularly promising solution for the Spanish legal sector. Finally, a critical analysis of the limitations found is carried out and future lines of research are proposed. Among them, the incorporation of advanced fine-tuning techniques stands out, such as triplet contrastive learning, to refine the semantic similarity between queries and documents. Likewise, the expansion of the corpus with a greater number of judicial decisions and the development of user interfaces based on reasoning LLMs are proposed. These interfaces would have direct access to case law search tools, potentially speeding up the work of lawyers, legal professionals, and users in general, and democratising access to legal information in Spain.
| ID de Registro: | 87939 |
|---|---|
| Identificador DC: | https://oa.upm.es/87939/ |
| Identificador OAI: | oai:oa.upm.es:87939 |
| Depositado por: | Biblioteca Facultad de Informatica |
| Depositado el: | 20 Feb 2025 09:03 |
| Ultima Modificación: | 24 Feb 2025 08:10 |
Publicar en el Archivo Digital desde el Portal Científico