Full text
![]() |
PDF
- Requires a PDF viewer, such as GSview, Xpdf or Adobe Acrobat Reader
Download (4MB) |
Álvarez de Miranda Rodríguez, José Ignacio (2023). Aprendizaje multimodal con transformers para clasificación de noticias. Thesis (Master thesis), E.T.S. de Ingenieros Informáticos (UPM).
Title: | Aprendizaje multimodal con transformers para clasificación de noticias |
---|---|
Author/s: |
|
Contributor/s: |
|
Item Type: | Thesis (Master thesis) |
Masters title: | Ciencia de Datos |
Date: | July 2023 |
Subjects: | |
Faculty: | E.T.S. de Ingenieros Informáticos (UPM) |
Department: | Inteligencia Artificial |
Creative Commons Licenses: | Recognition - No derivative works - Non commercial |
![]() |
PDF
- Requires a PDF viewer, such as GSview, Xpdf or Adobe Acrobat Reader
Download (4MB) |
Las metodologías de clasificación de noticias online se basan en su mayoría en el análisis textual, ignorando otras fuentes de información como las imágenes u otros tipos de contenido multimedia asociados. En este Trabajo de Fin de Máster (TFM) se explora cómo integrar el Procesado del lenguaje natural y la Visión por Computador para clasificar artículos periodísticos digitales. Haciendo uso de redes neuronales Transformer para procesar texto e imagen, se obtendrán representaciones de calidad de los datos de entrada que faciliten su fusión. Esta combinación de información se espera que obtenga unas predicciones más robustas que analizando exclusivamente el texto o las imágenes por separado.
Este estudio se encuentra inspirado y busca ampliar los resultados mostrados en el artículo N24News:A New Dataset for Multimodal News Classification [1]. En dicha investigación se propone un uso de redes Transformers combinando imágenes y textos para clasificar noticias. Sin embargo, el análisis textual que se realiza en dicha publicación no tiene en cuenta la longitud del texto de los artículos periodísticos y únicamente aprovecha una parte muy pequeña de este. Adicionalmente, tampoco se toma en consideración que las imágenes en las noticias están acompañadas por un texto al pie o caption que describe lo que sucede en la imagen. Esta pareja imagen-caption puede ser mejor aprovechada por otros modelos del estado del arte para obtener representaciones de las imágenes de mayor calidad. Por todo esto, en este estudio se presenta un nuevo análisis multimodal que busca cubrir las debilidades e intentar mejorar el enfoque de N24News.
La arquitectura multimodal propuesta está compuesta por dos subredes y tres cabezas de clasificación. En esta arquitectura cada una de las subredes será la encargada de obtener una representación vectorial de un tipo de dato de entrada. La subred de tratamiento de texto consiste en un modelo Longformer el cual obtendrá una representación o embedding del texto asociado a una noticia. El modelo Longformer al poder computar un máximo de 4096 subpalabras o tokens (en lugar de los 512 de otros modelos de lenguaje) permitirá estudiar la correlación entre el número de tokens interpretados y el rendimiento del clasificador. Por otra parte, la subred de procesado de imagen está formada por un modelo CLIP, el cual sin necesidad de entrenamiento adicional permite obtener embeddings de la imagen que acompaña a la noticia y del caption asociado a dicha imagen.
Para comprobar empíricamente el rendimiento de esta arquitectura se cuenta con un dataset compuesto por las noticias de la web del periódico New York Times entre los años 2010-2020. Cada uno de estos artículos periodísticos pertenece a una de las 24 secciones del periódico, siendo esta sección la clase a predecir por el clasificador. Aparte de eso, de cada artículo se tiene un título, resumen, imagen (thumbnail), caption (asociado a la imagen) y cuerpo de la noticia. Todos los campos textuales a excepción del caption se concatenarán y serán procesados por el Longformer mientras que la pareja thumbnail-caption se computará en la subred del modelo CLIP.
La experimentación ha probado que la arquitectura planteada es capaz de superar ligeramente al rendimiento de sus subredes por separado. Sin embargo, la muy pequeña diferencia entre el rendimiento de la arquitectura multimodal (0.9054 de F1-score) frente al del análisis textual (0.8990 de F1-score) indica que en la mayoría de casos es posible predecir correctamente sin atender a las imágenes. Además, las pruebas realizadas con el Longformer indican que un mayor número de tokens interpretados no aporta siempre un mayor rendimiento. Este hecho refleja que la información relevante para la clasificación de noticias está concentrada por el principio de la misma. Es por esto que a partir de los 1024 tokens interpretados se observa un rendimiento decreciente al introducir al modelo detalles sin importancia que actúan de ruido.
ABSTRACT
Online news classification methodologies are mostly based on textual analysis, ignoring other sources of information such as images or other types of associated multimedia content. This Master Thesis (MT) explores how to integrate Natural Language Processing and Computer Vision to classify digital news articles. By making use of Transformer neural networks to process text and image, quality vector representations of the input data will be obtained to facilitate their fusion. This combination of information is expected to yield more robust predictions than analyzing only text or images separately.
This study is inspired by and seeks to extend the results shown in the article “A New Dataset for Multimodal News Classification” [1]. In this research, the use of transformer networks combining images and text to classify news is proposed. However, the textual analysis carried out in this publication does not take into account the length of the text of newspaper articles and only uses a very small part of it. Additionally, it does not take into consideration that the images in the news are accompanied by a text at the bottom or caption that describes what is happening in the image. This image-caption pair can be better exploited by other state-of-the-art models to obtain higher quality representations of the images. For all these reasons, a new multimodal analysis is presented in this study that seeks to cover the weaknesses and try to improve the N24News approach.
The proposed multimodal architecture is composed of two subnetworks and three classification heads. In this architecture, each of the subnetworks being in charge of obtaining vector representations of an input data type. The text processing subnetwork consists of a Longformer model which will obtain a representation or embedding of the text associated with a news item. The Longformer model being able to compute a maximum of 4096 subwords or tokens (instead of the 512 of other language models) will allow studying the correlation between the number of interpreted tokens and the performance of the classifier. On the other hand, the image processing subnetwork is formed by a CLIP model, which without additional training can obtain embeddings from the image accompanying the news item and from the caption associated with that image.
To empirically test the performance of this architecture we have a dataset composed of news items from the website of the newspaper New York Times between the years 2010-2020. Each of these news articles belongs to one of the 24 sections of the newspaper, being this section the class to be predicted by the classifier. Additionally, each article has a title, summary, image (thumbnail), caption associated to the image and body of the news. All textual fields except for the caption will be concatenated and processed by the Longformer while the thumbnail-caption pair will be computed in the CLIP model subnetwork.
Experimentation has proven that the proposed architecture slightly outperforms its subnetworks separately. However, the very small difference between the performance of the multimodal architecture (0.9054 F1-score) versus that of the textual analysis (0.8990 F1-score) indicates that in most cases it is possible to predict correctly without attending to the images. Furthermore, tests performed with the Longformer indicate that a higher number of interpreted tokens does not always provide better performance. This fact reflects that the relevant information for news classification is concentrated at the news beginning. This is why from 1024 interpreted tokens onwards, a decreasing performance is observed when unimportant details that act as noise are introduced to the model.
Item ID: | 75828 |
---|---|
DC Identifier: | https://oa.upm.es/75828/ |
OAI Identifier: | oai:oa.upm.es:75828 |
Deposited by: | Biblioteca Facultad de Informatica |
Deposited on: | 13 Sep 2023 11:32 |
Last Modified: | 13 Sep 2023 11:32 |