Resumen de textos literarios en español por medio de modelos lingüísticos Transformers

Marco Remón, Guillermo (2020). Resumen de textos literarios en español por medio de modelos lingüísticos Transformers. Thesis (Master thesis), E.T.S. de Ingenieros Informáticos (UPM).

Description

Title: Resumen de textos literarios en español por medio de modelos lingüísticos Transformers
Author/s:
  • Marco Remón, Guillermo
Contributor/s:
  • Serradilla García, Francisco J.
Item Type: Thesis (Master thesis)
Masters title: Inteligencia Artificial
Date: 13 July 2020
Subjects:
Faculty: E.T.S. de Ingenieros Informáticos (UPM)
Department: Inteligencia Artificial
Creative Commons Licenses: Recognition - No derivative works - Non commercial

Full text

[img]
Preview
PDF - Requires a PDF viewer, such as GSview, Xpdf or Adobe Acrobat Reader
Download (5MB) | Preview

Abstract

Los recientes modelos lingüísticos basados en atención, los llamados Transformers, en particular sus variantes preentrenadas como BERT (Bidirectional Encoder Representations from Transformers), han superado el rendimiento del estado del arte en varias tareas clásicas de Procesamiento de Lenguaje Natural, tales como los sistemas pregunta y respuesta, diálogo o clasificación. Este trabajo se propone estudiar su rendimiento en una de las tareas tradicionalmente más complejas: el resumen abstractivo. Con este fin, se ha elaborado un corpus etiquetado de textos literarios en español, aportación inédita cuya novedad y magnitud (se compone de más 40000 libros etiquetados por fecha, autor, resumen realizado por humanos...) abre un campo de posibilidades de aplicación en herramientas de aprendizaje profundo, imposibles hasta ahora en español. Se ha probado un modelo basado en el ajuste fino de BERT para resumen abstractivo; se ofrecen resultados aceptables pero insuficientes, debidos a las dificultades que presentan el entrenamiento de un modelo de cientos de millones de parámetros y, sobre todo, la dificultad de capturar las dependencias a largo plazo que se dan en secuencias de texto de gran longitud. No obstante, se ha probado su rendimiento en una tarea donde la entrada no supera el tamaño máximo del modelo preentrenado: la generación de sinopsis a partir de sus títulos; en ella se observa un interesante potencial de los Transformers para la generación de texto, pues la red generaliza la elaboración de una sinopsis de tal manera que crea argumentos coherentes para títulos de libros que no existen; se trata de una inteligencia artificial que presenta la capacidad de generalización de las reglas del lenguaje así como cierta creatividad; se ha habilitado un bot de Twitter para difundir sus resultados y que los usuarios puedan probar la generación de sinopsis. Por último, se establece un nuevo estado del arte de la métrica ROUGE de resumen sobre este corpus. Se proponen soluciones y trabajos futuros para mejorar los resultados.---ABSTRACT---Recent attention-based linguistic models, the so-called Transformers, in particular their pre-trained variants like BERT (Bidirectional Encoder Representations from Transformers), have outperformed the state-of-the-art in several classical Natural Language Processing tasks, such as question and answer systems, dialogue or classification. This paper aims to study their performance in one of the traditionally most complex tasks: abstractive summarization. To this end, a labelled corpus of literary texts in Spanish has been elaborated. This is an unpublished contribution whose novelty and magnitude (it is composed of more than 40,000 books labelled by date, author, summary made by humans...) opens a field of application possibilities in deep learning tools, impossible until now in Spanish. A model based on BERT’s fine-tuning for abstractive summaries has been tested; it offers acceptable but insufficient results due to the difficulties of training a model of hundreds of millions of parameters and, above all, the difficulty of capturing the long-term dependencies that occur in long text sequences. However, their performance has been tested in a task where the input does not exceed the maximum size of the pretrained model: the generation of synopses from book titles. An interesting potential of Transformers for text generation can be observed in this task, since the network generalizes the elaboration of a synopsis in such a way that it creates coherent arguments for book titles that do not exist; it is an artificial intelligence system that presents the capacity to generalize the rules of language as well as certain creativity; a Twitter bot has been enabled to disseminate its results. Finally, a new state of the art ROUGE summary metric is established on this corpus. Future work is proposed to improve the results.

More information

Item ID: 63754
DC Identifier: http://oa.upm.es/63754/
OAI Identifier: oai:oa.upm.es:63754
Deposited by: Biblioteca Facultad de Informatica
Deposited on: 10 Sep 2020 11:48
Last Modified: 10 Sep 2020 11:48
  • Logo InvestigaM (UPM)
  • Logo GEOUP4
  • Logo Open Access
  • Open Access
  • Logo Sherpa/Romeo
    Check whether the anglo-saxon journal in which you have published an article allows you to also publish it under open access.
  • Logo Dulcinea
    Check whether the spanish journal in which you have published an article allows you to also publish it under open access.
  • Logo de Recolecta
  • Logo del Observatorio I+D+i UPM
  • Logo de OpenCourseWare UPM