Texto completo
|
PDF (Portable Document Format)
- Se necesita un visor de ficheros PDF, como GSview, Xpdf o Adobe Acrobat Reader
Descargar (5MB) |
| Título: | Clasificación de documentos del AD-UPM mediante TDA |
|---|---|
| Autor/es: |
|
| Director/es: |
|
| Tipo de Documento: | Trabajo Fin de Grado o Proyecto Fin de Carrera |
| Grado: | Grado en Ciencia de Datos e Inteligencia Artificial |
| Fecha: | Abril 2025 |
| Materias: | |
| ODS: | |
| Palabras Clave Informales: | Procesamiento de lenguaje natural, Análisis topológico de datos, Homología persistente, Clasificación documental, Vietoris–Rips, Giotto-tda, Reducción de dimensionalidad, Minería de textos, ODS, Clasificación institucional, Clustering, Mapper, Coeficiente Silhouette, TF-IDF, LSA, Natural language processing, Topological data analysis, Persistent homology, Document classification, Dimensionality reduction, Text mining, SDGs, Institutional classification, Silhouette score |
| Escuela: | E.T.S. de Ingenieros Informáticos (UPM) |
| Departamento: | Inteligencia Artificial |
| Licencias Creative Commons: | Reconocimiento - Sin obra derivada - No comercial |
|
PDF (Portable Document Format)
- Se necesita un visor de ficheros PDF, como GSview, Xpdf o Adobe Acrobat Reader
Descargar (5MB) |
Este Trabajo de Fin de Grado presenta una metodología para la clasificación automática de documentos académicos, aplicando técnicas combinadas de Procesamiento de Lenguaje Natural (PLN) y Análisis Topológico de Datos (TDA). El caso de estudio se centra en el Archivo Digital de la Universidad Politécnica de Madrid (AD-UPM), donde se busca asignar etiquetas institucionales, como la Institución o el Departamento de origen, a partir de la información contenida en el título, el resumen y las conclusiones de cada documento. El trabajo se estructura como un pipeline modular compuesto por varias etapas. En primer lugar, se lleva a cabo la extracción y estructuración de textos a partir de documentos en formato HTML y PDF. A continuación, se aplican técnicas de representación del lenguaje como TF-IDF, seguidas de procesos de reducción de dimensionalidad y selección de características. Sobre estos vectores se realiza un análisis exploratorio mediante proyecciones semánticas y algoritmos de agrupamiento no supervisado. Posteriormente, se extraen descriptores topológicos mediante complejos de Vietoris-Rips, y se analizan las distancias intra e interclase utilizando métricas como Wasserstein o los paisajes de persistencia. Finalmente, se construye un clasificador supervisado que se basa esta información topológica para mejorar realizar predicciones, en este caso de pertenencia a una Institución concreta, en base a probabilidades generadas por distancias entre Diagramas de Vietoris-Rips. Más allá del contexto concreto del AD-UPM, la propuesta metodológica desarrollada tiene vocación de generalidad. El pipeline diseñado es totalmente replicable y puede ser adaptado a otros entornos de análisis textual que presenten estructuras similares, como repositorios científicos, sistemas de gestión documental o colecciones especializadas con etiquetas temáticas o institucionales. La combinación de técnicas clásicas de PLN con herramientas de TDA permite capturar tanto patrones locales como relaciones estructurales globales, haciendo del enfoque una alternativa versátil, eficiente e interpretable. Los resultados obtenidos permiten evaluar el potencial de los descriptores topológicos como complemento a las representaciones textuales tradicionales, y evidencian su utilidad en tareas de clasificación documental en dominios complejos.
ABSTRACT
This Bachelor’s Thesis presents a methodology for the automatic classification of academic documents, combining techniques from Natural Language Processing (NLP) and Topological Data Analysis (TDA). The case study focuses on the Digital Archive of the Universidad Politécnica de Madrid (AD-UPM), where the aim is to assign institutional labels, such as School or Department, based on the information contained in the title, abstract, and conclusions of each document. The project is structured as a modular pipeline consisting of several stages. First, text content is extracted and structured from HTML and PDF documents. Then, textual representations such as TF-IDF are applied, followed by dimensionality reduction and feature selection. An exploratory analysis is carried out through semantic projections and unsupervised clustering algorithms. Afterwards, topological descriptors are extracted using Vietoris–Rips complexes, and inter- and intra-class distances are analyzed using metrics such as the Wasserstein distance and persistence landscapes. Finally, a supervised classifier is trained, integrating topological features to improve the accuracy of label assignment. Beyond the specific context of AD-UPM, the proposed methodology is designed to be generalizable. The developed pipeline is fully replicable and can be adapted to other textual analysis scenarios with similar structure, such as scientific repositories, document management systems, or thematic collections with institutional or categorical labels. By combining classical NLP techniques with TDA tools, the approach captures both local and global structural patterns, offering a versatile, efficient, and interpretable solution. The results demonstrate the potential of topological descriptors as a complement to traditional textual representations and highlight their usefulness in document classification tasks in semantically complex domains.
| ID de Registro: | 89824 |
|---|---|
| Identificador DC: | https://oa.upm.es/89824/ |
| Identificador OAI: | oai:oa.upm.es:89824 |
| Depositado por: | Biblioteca Facultad de Informatica |
| Depositado el: | 07 Jul 2025 06:18 |
| Ultima Modificación: | 07 Jul 2025 06:18 |
Publicar en el Archivo Digital desde el Portal Científico