Modelos de Transformers para la clasificación de texto

García Subies, Guillem (2021). Modelos de Transformers para la clasificación de texto. Thesis (Master thesis), E.T.S. de Ingenieros Informáticos (UPM).

Description

Title: Modelos de Transformers para la clasificación de texto
Author/s:
  • García Subies, Guillem
Contributor/s:
  • Serradilla García, Francisco
Item Type: Thesis (Master thesis)
Masters title: Inteligencia Artificial
Date: July 2021
Subjects:
Faculty: E.T.S. de Ingenieros Informáticos (UPM)
Department: Inteligencia Artificial
Creative Commons Licenses: Recognition - No derivative works - Non commercial

Full text

[img]
Preview
PDF - Requires a PDF viewer, such as GSview, Xpdf or Adobe Acrobat Reader
Download (1MB) | Preview

Abstract

Este trabajo tiene como objetivo el estudio minucioso del estado del arte de la clasificación de textos usando modelos del lenguaje basados en Transformers para aplicar las técnicas más novedosas a problemas de relevancia social. Para ello, primero se estudia el estado del arte tanto de los modelos del lenguaje, las técnicas de clasificación de texto y análisis del sentimiento, y las técnicas de Data Augmentation para Procesamiento del Lenguaje Natural (PLN). A continuación, se describe la participación en las tareas compartidas de la edición de 2021 del Iberian Languages Evaluation Forum (IberLeF), enmarcado en el congreso anual de la Sociedad Española de Procesamiento del Lenguaje Natural (SEPLN). En esta participación se exploran las mejores técnicas estudiadas, centrándose en técnicas de bajos recursos computacionales, y se obtienen resultados del estado del arte. Asimismo, se propone una nueva técnica que mejora el estado del arte en los corpus plurilingües. Los resultados obtenidos en este trabajo, son de alta trascendencia científica ya que se aplican a problemas muy relevantes dado el contexto de cambio social actual, al énfasis en el uso del software libre y modelos eficientes computacionalmente, en contra de la tendencia actual de crear modelos cada vez más grandes y caros, solamente asumibles para las grandes multinacionales. Fruto de este trabajo, se han publicado tres papers en solitario y un cuarto como coautor mostrando los resultados de las competiciones.---ABSTRACT---The main objective of this work is a thorough study of the state-of-the-art in text classification using Transformer-based language models in order to apply the most novel techniques to problems of social relevance. To do this, we first study the state-of-the-art of language models, text classification techniques and sentiment analysis, and Data Augmentation techniques for Natural Language Processing (NLP). Next we describe our participation in the shared tasks of the 2021 edition of the Iberian Languages Evaluation Forum (IberLeF), framed within the annual congress of the Spanish Society for Natural Language Processing (SEPLN). In this participation, the best studied techniques are explored, focusing on techniques that require low computational resources, and state-of-the-art results are obtained. In addition, a new technique is proposed that improves the state-of-the-art in multilingual corpus. The results obtained in this work are of high scientific significance since they are applied to very relevant problems given the context of current social change, the emphasis on the use of open source software and computationally efficient models, contrary to the current trend of creating increasingly large and expensive models, only affordable for large companies. As a result of this work, three papers have been published and a fourth one as a co-author showing the results of the competitions.

More information

Item ID: 68623
DC Identifier: https://oa.upm.es/68623/
OAI Identifier: oai:oa.upm.es:68623
Deposited by: Biblioteca Facultad de Informatica
Deposited on: 24 Sep 2021 07:55
Last Modified: 24 Sep 2021 08:23
  • Logo InvestigaM (UPM)
  • Logo GEOUP4
  • Logo Open Access
  • Open Access
  • Logo Sherpa/Romeo
    Check whether the anglo-saxon journal in which you have published an article allows you to also publish it under open access.
  • Logo Dulcinea
    Check whether the spanish journal in which you have published an article allows you to also publish it under open access.
  • Logo de Recolecta
  • Logo del Observatorio I+D+i UPM
  • Logo de OpenCourseWare UPM