Análisis multimodal visio-lingüe para detectar contenido fraudulento en Reddit

Girón Jiménez, Adrián (2023). Análisis multimodal visio-lingüe para detectar contenido fraudulento en Reddit. Thesis (Master thesis), E.T.S. de Ingenieros Informáticos (UPM).

Description

Title: Análisis multimodal visio-lingüe para detectar contenido fraudulento en Reddit
Author/s:
  • Girón Jiménez, Adrián
Contributor/s:
Item Type: Thesis (Master thesis)
Masters title: Ciencia de Datos
Date: July 2023
Subjects:
Faculty: E.T.S. de Ingenieros Informáticos (UPM)
Department: Inteligencia Artificial
Creative Commons Licenses: Recognition - No derivative works - Non commercial

Full text

[thumbnail of TFM_ADRIAN_GIRON_JIMENEZ.pdf] PDF - Requires a PDF viewer, such as GSview, Xpdf or Adobe Acrobat Reader
Download (5MB)

Abstract

La desinformación es un problema grave y difícil de abordar. En las redes sociales existe una gran difusión de fake news que pueden tener fuertes consecuencias a nivel político, social, económico, etc. Analizar estos posts cada vez es más complicado pues su intención se manifiesta a través de múltiples canales de información como texto o imagen. En este proyecto se construye un modelo de deep learning capaz de identificar fake posts multimodales en redes sociales.

Fakeddit es un dataset multimodal que contiene posts de la red social Reddit orientado a la clasificación de lo mismos en varias categorías, entre ellas, posts verdaderos y fake posts. Los tres conjuntos de entrenamiento, validación y test contienen 564.000, 59.342 y 56.319 instancias respectivamente. Cada una de ellas cuenta con 16 atributos entre los que destacan la imagen del post (url), su caption y tres metadatos que son el score, el upvote ratio y el número de comentarios. Las imágenes son descargadas mediante un script que paraleliza múltiples peticiones en paralelo para agilizar la descarga. Además, mediante una API llamada Pushshift, que alberga un histórico de Reddit, se pueden rescatar y relacionar los comentarios de cada post. Su estructura en forma de árbol es incrustada directamente en formato de texto. Finalmente, se obtiene un dataset preprocesado con cuatro modalidades del cual se extrae una muestra de 15.000 instancias para entrenamiento y 5.000 para validación con el fin de agilizar la experimentación.

Uno de los pilares de la experimentación multimodal de este proyecto se basa en CLIP, modelo del estado del arte que, mediante contrastive loss y dos encoders, uno para imagen y otro para texto, consigue representar en el mismo espacio vectorial y semántico imágenes y texto. Esta relación intrínseca entre los embeddings ayuda a pensar que puede ser una gran elección como base de la arquitectura multimodal que se vaya a construir. Además, para los comentarios se plantea usar como encoder el modelo DeBERTa debido a sus resultados frente a otros text transformers como BERT o RoBERTa.

La experimentación sigue un enfoque de abajo hacia arriba, de modo que se comienza con experimentos unimodales, posteriormente se prueba con combinaciones de modalidades estudiando sus sinergias y se finaliza con la combinación de todas en una sola arquitectura multimodal. Los modelos unimodales siguen todos el mismo diseño: se obtienen los embeddings con el encoder preentrenado apropiado y se realizan ciertas proyecciones mediante capas feed-forward hasta la última capa lineal que genera los logits para las clases de verdadero o falso.

Para las arquitecturas multimodales se sigue una estructura de “ramas” que combinan modalidades con un propósito en específico. Para, por ejemplo, la arquitectura multimodal que tuviera como entradas imágenes, captions y comentarios, mediante el uso de skip connections, habría una rama encargada de la imagen, otra del texto, que combinaría captions y comentarios; y una multimodal, que combinaría todas. Todas estas representaciones se concatenarían al final y mediante una cabeza de clasificación similar a la empleada en los experimentos multimodales se clasificaría de forma binaria.

Esta arquitectura de ramas puede ser descompuesta en tres módulos diferentes: módulos de codificación, que se encargan de generar el embedding con el encoder correspondiente y realizar proyecciones hasta conseguir una dimensión de 512 con regularización dropout, módulos de proyección, que se encargan de proyectar, procesar y fusionar la información en cada rama hasta una dimensión menor (128 en el caso de las cuatro modalidades), usando capas LayerNorm y, finalmente, la cabeza de clasificación de la que se ha hablado anteriormente.

Los resultados unimodales muestran que, por sí solas, las dos modalidades más influyentes son, en orden, los comentarios y las captions seguidas de la imagen y, muy por detrás, los metadatos. Además, se ha realizado un experimento multimodal teniendo solo en cuenta las modalidades provenientes de texto, captions y comentarios, teniendo este un gran resultado y proponiendo la hipótesis de que las modalidades textuales sean las que mayormente participan en los resultados.

Por otro lado, se confirma la idea de que no siempre “más es mejor” en cuanto a modalidades se refiere, puesto que algunas pueden tener relaciones ocultas (spurious artifacts) que dificulten el entrenamiento y empeoren los resultados. Esto es lo que pasa precisamente al introducir los metadatos junto al resto de modalidades. El modelo sobreajusta rápidamente con unos resultados bastante pobres en comparación. A pesar de probar con todas las combinaciones posibles de metadatos, no se consigue que estos aporten valor a la información multimodal pudiéndose deber a la diferencia entre las complejidades de las modalidades. Finalmente, se emplean dos técnicas que incrementan los resultados. En primer lugar el fine tuning, descongelando las últimas capas de los encoders y el entrenamiento con 10 veces más datos. Usando una quinta parte de los datos totales de entrenamiento y con muchos menos recursos, prácticamente, se iguala el estado del arte.

En conclusión, Fakeddit es un dataset que requiere de un gran trabajo de preprocesado. La mejor arquitectura tiene en cuenta imagen, captions y comentarios y mediante el uso de CLIP, DeBERTa y su estructura de ramas consigue un modelo muy robusto. Con la comparativa se demuestra la hipótesis de que la combinación de múltiples modalidades aportan más información que éstas por separado. En futuros trabajos se espera poder emplear aún más recursos y datos en el entrenamiento, pudiendo superar el estado del arte. Además, se espera crear una arquitectura que pueda extraer la información que los metadatos aportan. Por último, extrapolar el modelo a otros conjuntos de datos multimodales de desinformación u otras redes sociales.

ABSTRACT

Mis information is a serious and difficult problem to address. In social networks there is a great diffusion of fake news that can have strong consequences at a political, social and economic level. Analyzing these posts is increasingly complicated because their intention is manifested through multiple channels of information such as text or image. In this project we build a deep learning model capable of identifying multimodal fake posts in social networks.

Fakeddit is a multimodal dataset containing posts from the social network Reddit oriented to classify them into several categories, including true posts and fake posts. The three training, validation and test sets contain 564,000, 59,342 and 56,319 instances respectively. Each of them has 16 attributes among which the image of the post (url), its caption and three metadata which are the score, the upvote ratio and the number of comments. The images are downloaded using a script that parallelizes multiple requests to speed up the download. In addition, by means of an API called Pushshift, which hosts a history of Reddit, the comments of each post can be retrieved and related. Their tree structure will be embedded directly in text format. Finally, a preprocessed dataset with four modalities is obtained. A sample of 15,000 instances will be obtained for training and 5,000 for validation in order to speed up experimentation.

One of the pillars of the multimodal experimentation of this project is based on CLIP, a state-of-the-art model that, by means of contrastive loss and two encoders, one for image and one for text, manages to represent the same vector and semantic space images and text. This intrinsic relationship between the embeddings helps to think that it can be a great choice as the basis of the multimodal architecture to be built. In addition, for the comments it is proposed to use as encoder the DeBERTa model due to its results against other text transformers such as BERT or RoBERTa.

The experimentation follows a bottom-up approach, so that we start with unimodal experiments, then test combinations of modalities by studying their synergies and end with combining all of them into a single multimodal architecture. The unimodal models all follow the same design: the embeddings are obtained with the appropriate pretrained encoder and certain projections are performed using feed-forward layers up to the last linear layer that generates the logits for the true or false classes.

For multimodal architectures, a structure of “branches” that combine modalities for a specific purpose is followed. For example, for a multimodal architecture with images, captions and comments as inputs, using skip connections, there would be a branch for the image, another for the text, which would combine captions and comments; and a multimodal branch, which would combine all of them. All these representations would be concatenated at the end and by means of a classification head similar to the one used in the multimodal experiments would be classified in a binary way.

This branch architecture can be decomposed into three different modules: encoding modules, which are responsible for generating the embedding with the corresponding encoder and making projections up to a dimension of 512 with dropout regularization, projection modules, which are responsible for projecting, processing and merging the information in each branch up to a smaller dimension (128 in the case of the four modalities), using LayerNorm layers and, finally, the classification head discussed above.

The unimodal results show that, alone, the two most influential modalities are, in order, comments and captions followed by image and, far behind, metadata. In addition, a multimodal experiment has been carried out taking into account only the modalities coming from text, captions and comments, having a great result and proposing the hypothesis that the textual modalities are the ones that mostly participate in the results.

On the other hand, the idea that “more is not always better” in terms of modalities is confirmed, since some may have hidden relations (spurious artifacts) that make training more difficult and worsen the results. This is precisely what happens when introducing metadata together with the rest of the modalities. The model overfits quickly with rather poor results in comparison. In spite of trying all possible combinations of metadata, it is not possible to get them to add value to the multimodal information, which could be due to the difference between the complexity of the modalities. Finally, two techniques are used to increase the results. First, fine tuning, unfreezing the last layers of the encoders, and training with 10 times more data. Using one-fifth of the total training data and with much less resources, practically, it matches the state of the art.

In conclusion, Fakeddit is a dataset that requires a lot of preprocessing work. The best architecture takes into account image, captions and comments and by using CLIP, DeBERTa and its branch structure achieves a very robust model. The comparison demonstrates the hypothesis that the combination of multiple modalities provides more information than the individual modalities. In future work, it is expected that more resources and data can be used in training, and that the state of the art can be surpassed. In addition, we hope to create an architecture that can extract the information provided by the metadata. Finally, extrapolate the model to other multimodal datasets of misinformation or other social networks.

More information

Item ID: 75834
DC Identifier: https://oa.upm.es/75834/
OAI Identifier: oai:oa.upm.es:75834
Deposited by: Biblioteca Facultad de Informatica
Deposited on: 13 Sep 2023 10:16
Last Modified: 13 Sep 2023 10:16
  • Logo InvestigaM (UPM)
  • Logo GEOUP4
  • Logo Open Access
  • Open Access
  • Logo Sherpa/Romeo
    Check whether the anglo-saxon journal in which you have published an article allows you to also publish it under open access.
  • Logo Dulcinea
    Check whether the spanish journal in which you have published an article allows you to also publish it under open access.
  • Logo de Recolecta
  • Logo del Observatorio I+D+i UPM
  • Logo de OpenCourseWare UPM