Clasificación de documentos del AD-UPM mediante TDA

García Berenguer, Mario (2025). Clasificación de documentos del AD-UPM mediante TDA. Trabajo Fin de Grado / Proyecto Fin de Carrera, E.T.S. de Ingenieros Informáticos (UPM), Boadilla del Monte.

Descripción

Título:	Clasificación de documentos del AD-UPM mediante TDA
Autor/es:	García Berenguer, Mario
Director/es:	Fernández del Pozo de Salamanca, Juan Antonio https://orcid.org/0000-0002-7714-4657
Tipo de Documento:	Trabajo Fin de Grado o Proyecto Fin de Carrera
Grado:	Grado en Ciencia de Datos e Inteligencia Artificial
Fecha:	Abril 2025
Materias:	Informática
ODS:	04. Educación de calidad 09. Industria, innovación e infraestructura
Palabras Clave Informales:	Procesamiento de lenguaje natural, Análisis topológico de datos, Homología persistente, Clasificación documental, Vietoris–Rips, Giotto-tda, Reducción de dimensionalidad, Minería de textos, ODS, Clasificación institucional, Clustering, Mapper, Coeficiente Silhouette, TF-IDF, LSA, Natural language processing, Topological data analysis, Persistent homology, Document classification, Dimensionality reduction, Text mining, SDGs, Institutional classification, Silhouette score
Escuela:	E.T.S. de Ingenieros Informáticos (UPM)
Departamento:	Inteligencia Artificial
Licencias Creative Commons:	Reconocimiento - Sin obra derivada - No comercial

Texto completo

[thumbnail of TFG_MARIO_GARCIA_BERENGUER.pdf]

PDF (Portable Document Format) - Se necesita un visor de ficheros PDF, como GSview, Xpdf o Adobe Acrobat Reader
Descargar (5MB)

Resumen

Este Trabajo de Fin de Grado presenta una metodología para la clasificación automática de documentos académicos, aplicando técnicas combinadas de Procesamiento de Lenguaje Natural (PLN) y Análisis Topológico de Datos (TDA). El caso de estudio se centra en el Archivo Digital de la Universidad Politécnica de Madrid (AD-UPM), donde se busca asignar etiquetas institucionales, como la Institución o el Departamento de origen, a partir de la información contenida en el título, el resumen y las conclusiones de cada documento. El trabajo se estructura como un pipeline modular compuesto por varias etapas. En primer lugar, se lleva a cabo la extracción y estructuración de textos a partir de documentos en formato HTML y PDF. A continuación, se aplican técnicas de representación del lenguaje como TF-IDF, seguidas de procesos de reducción de dimensionalidad y selección de características. Sobre estos vectores se realiza un análisis exploratorio mediante proyecciones semánticas y algoritmos de agrupamiento no supervisado. Posteriormente, se extraen descriptores topológicos mediante complejos de Vietoris-Rips, y se analizan las distancias intra e interclase utilizando métricas como Wasserstein o los paisajes de persistencia. Finalmente, se construye un clasificador supervisado que se basa esta información topológica para mejorar realizar predicciones, en este caso de pertenencia a una Institución concreta, en base a probabilidades generadas por distancias entre Diagramas de Vietoris-Rips. Más allá del contexto concreto del AD-UPM, la propuesta metodológica desarrollada tiene vocación de generalidad. El pipeline diseñado es totalmente replicable y puede ser adaptado a otros entornos de análisis textual que presenten estructuras similares, como repositorios científicos, sistemas de gestión documental o colecciones especializadas con etiquetas temáticas o institucionales. La combinación de técnicas clásicas de PLN con herramientas de TDA permite capturar tanto patrones locales como relaciones estructurales globales, haciendo del enfoque una alternativa versátil, eficiente e interpretable. Los resultados obtenidos permiten evaluar el potencial de los descriptores topológicos como complemento a las representaciones textuales tradicionales, y evidencian su utilidad en tareas de clasificación documental en dominios complejos.

ABSTRACT

This Bachelor’s Thesis presents a methodology for the automatic classification of academic documents, combining techniques from Natural Language Processing (NLP) and Topological Data Analysis (TDA). The case study focuses on the Digital Archive of the Universidad Politécnica de Madrid (AD-UPM), where the aim is to assign institutional labels, such as School or Department, based on the information contained in the title, abstract, and conclusions of each document. The project is structured as a modular pipeline consisting of several stages. First, text content is extracted and structured from HTML and PDF documents. Then, textual representations such as TF-IDF are applied, followed by dimensionality reduction and feature selection. An exploratory analysis is carried out through semantic projections and unsupervised clustering algorithms. Afterwards, topological descriptors are extracted using Vietoris–Rips complexes, and inter- and intra-class distances are analyzed using metrics such as the Wasserstein distance and persistence landscapes. Finally, a supervised classifier is trained, integrating topological features to improve the accuracy of label assignment. Beyond the specific context of AD-UPM, the proposed methodology is designed to be generalizable. The developed pipeline is fully replicable and can be adapted to other textual analysis scenarios with similar structure, such as scientific repositories, document management systems, or thematic collections with institutional or categorical labels. By combining classical NLP techniques with TDA tools, the approach captures both local and global structural patterns, offering a versatile, efficient, and interpretable solution. The results demonstrate the potential of topological descriptors as a complement to traditional textual representations and highlight their usefulness in document classification tasks in semantically complex domains.

Más información

ID de Registro:	89824
Identificador DC:	https://oa.upm.es/89824/
Identificador OAI:	oai:oa.upm.es:89824
Depositado por:	Biblioteca Facultad de Informatica
Depositado el:	07 Jul 2025 06:18
Ultima Modificación:	07 Jul 2025 06:18

Estadísticas

Exportar cita

Editar (sólo personal del Archivo)

En esta página

Menú principal

Buscar

Clasificación de documentos del AD-UPM mediante TDA

Cita

Descripción

Texto completo

Resumen

Más información

Acciones

Documentos

El repositorio

Agrupados por ...

Datos Investigación

Financiadores

Especiales

En otros formatos

Redes sociales

Información adicional