Análisis comparativo de técnicas subsimbólicas para la identificación de refranes en textos en español

Manobanda Tutasig, Luis Javier (2025). Análisis comparativo de técnicas subsimbólicas para la identificación de refranes en textos en español. Tesis (Master), E.T.S. de Ingenieros Informáticos (UPM).

Descripción

Título: Análisis comparativo de técnicas subsimbólicas para la identificación de refranes en textos en español
Autor/es:
  • Manobanda Tutasig, Luis Javier
Director/es:
Tipo de Documento: Tesis (Master)
Título del máster: Inteligencia Artificial
Fecha: Junio 2025
Materias:
ODS:
Escuela: E.T.S. de Ingenieros Informáticos (UPM)
Departamento: Inteligencia Artificial
Licencias Creative Commons: Reconocimiento - Sin obra derivada - No comercial

Texto completo

[thumbnail of TFM_JUIS_JAVIER_MANOBANDA_TUTASIG.pdf] PDF (Portable Document Format) - Se necesita un visor de ficheros PDF, como GSview, Xpdf o Adobe Acrobat Reader
Descargar (5MB)

Resumen

Los enunciados con sentido figurado, como los refranes son elementos de difícil comprensión por parte de ciertos colectivos (personas con discapacidad cognitiva, extranjeros con conocimientos limitados del idioma, entre otros). En la actualidad muchos de estos refranes son utilizados tanto en conversaciones informales, en medios de comunicación e incluso en entornos educativos, aportando matices y profundidad al lenguaje, y siendo estos presentes en muchos de los textos que leemos.

Los refranes al ser expresiones breves que transmiten un consejo o lección moral de forma figurada están también profundamente arraigados con el contexto cultural y frecuentemente requieren un conocimiento implícito que va más allá del significado literal del enunciado. Por otro lado, en este mismo contexto existe la ausencia de corpus que incluyan tanto refranes como sus interpretaciones, dificultando su identificación y comprensión automatizada. Siendo la mayor parte de los recursos desarrollados inicialmente para el idioma inglés, mientras que en el idioma español se cuenta con pocos estudios específicos en este ámbito.

En este proyecto se plantea realizar un análisis comparativo de técnicas subsimbólicas para la identificación de refranes en textos en español, para ello se inicia con la creación de los diferentes corpus que se utilizan para el entrenamiento, validación y prueba de los enfoques desarrollados. Entre los enfoques que se describen en este proyecto se encuentran clasificadores tradicionales (regresión logística, random forest, support vector machine), implementación de redes convolucionales para la obtención de características profundas de los refranes, así como el uso de modelos pre entrenados como FLAN-T5 y finalizando con el uso de prompts con el modelo GPT-4o mini. Adicional a esto se desarrolla una aplicación web que sirve para experimentar con los diferentes enfoques desarrollados en este trabajo.

La evaluación de los diferentes enfoques se realiza empleando métricas clásicas de evaluación como el accuracy, la precisión y F1-Score, además de estas métricas se hace un análisis cualitativo de los errores cometidos por los diferentes enfoques para profundizar en las causas que llevan a un enfoque a equivocarse.

--ABSTRACT--

Figurative expressions, such as proverbs, are often challenging to comprehend for certain groups, including individuals with cognitive disabilities or non-native speakers with limited language proficiency. Proverbs are widely used in informal conversations, media, and even educational contexts, adding nuance and depth to language. However, these expressions, which convey advice or moral lessons in a figurative manner, are deeply rooted in cultural contexts and often require implicit knowledge beyond their literal meaning.

The lack of a comprehensive corpus containing both proverbs and their interpretations hinders the automated identification and understanding of these expressions, particularly in Spanish, where few studies address this issue. Most existing resources have been developed for the English language, leaving a significant gap in the Spanish-speaking world.

This thesis presents a comparative analysis of subsymbolic techniques for identifying proverbs in Spanish texts. It begins with the creation of various corpora for training, validation, and testing the proposed approaches. The methods explored include traditional classifiers (logistic regression, random forest, support vector machine), convolutional neural networks for extracting deep features, and the use of pre-trained models such as FLAN-T5. Additionally, a web application is developed to experiment with the different approaches implemented in this work.

The evaluation of these approaches is performed using standard metrics such as accuracy, precision, and F1-Score. Furthermore, a qualitative analysis of the errors made by each approach is conducted to explore the underlying causes of misclassification, providing deeper insights into the effectiveness of the proposed methods.

Más información

ID de Registro: 90992
Identificador DC: https://oa.upm.es/90992/
Identificador OAI: oai:oa.upm.es:90992
Depositado por: Biblioteca Facultad de Informatica
Depositado el: 22 Sep 2025 15:41
Ultima Modificación: 22 Sep 2025 15:41