Fake news detection with pretrained transformers

Dios Domínguez, Víctor de (2023). Fake news detection with pretrained transformers. Thesis (Master thesis), E.T.S. de Ingenieros Informáticos (UPM).

Description

Title: Fake news detection with pretrained transformers
Author/s:
  • Dios Domínguez, Víctor de
Contributor/s:
Item Type: Thesis (Master thesis)
Masters title: Ciencia de Datos
Date: July 2023
Subjects:
Freetext Keywords: Transformers, modelos de lenguaje preentrenados, procesamiento del lenguaje natural, detección automática, noticias falsas, pretrained language models, natural language processing, BERT, automatic detection, fake news
Faculty: E.T.S. de Ingenieros Informáticos (UPM)
Department: Inteligencia Artificial
Creative Commons Licenses: Recognition - No derivative works - Non commercial

Full text

[thumbnail of TFM_VICTOR_DE_DIOS_DOMINGUEZ.pdf] PDF - Requires a PDF viewer, such as GSview, Xpdf or Adobe Acrobat Reader
Download (616kB)

Abstract

El objetivo central del trabajo es el de recorrer mediante la experimentación algunas de las diversas técnicas que los PTLMs permiten llevar a cabo para la detección automática de las noticias, analizarlas desde distintos enfoques y medir así su grado de adecuación. Se busca desde una visión que puede ser considerada de alto nivel, analizar el comportamiento de distintos modelos que hacen uso de estos PTLMs con diferentes enfoques, para en líneas futuras poder extrapolar estas ideas y desarrollarlas en mayor profundidad.

Con la idea de desarrollar el estudio en un espectro de casuísticas mayor se hace uso del conjunto de datos Liar-plus, el cual contiene información adicional asociada a las diferentes noticias (declaraciones orales), una breve justificación y metadata.

El estudio gira entorno a los tres datos que recoge el conjunto, planteándose como un proceso incremental en el que los modelos se van construyendo en grado creciente de complejidad en función de los datos usados incorporando el conocimiento adquirido durante las fases anteriores.

Se usa BERT como PTLM a lo largo de todo el estudio y se va analizando el comportamiento del mismo a medida que se va añadiendo más información de entrada, dando especial relevancia a los distintos comportamientos que se producen según la forma en la que se procesan los datos de entrada.

Los mejores resultados se obtienen para un modelo gemelo de BERT al que se le presentan los datos disponibles divididos en dos inputs que se procesan de forma independiente, por un lado, el título de la noticia y por el otro la justificación concatenada con la metadata.

Durante el transcurso de los diferentes experimentos se observa que los resultados obtenidos en torno a la detección para el conjunto de datos tratado (declaraciones orales), son mucho más pobres que los que se obtienen sobre otros conjuntos de datos de otra procedencia (medios digitales escritos). Analizando los casos se observa que gran parte de esta diferencia puede encontrarse en la misma naturaleza de los datos, habiendo una clara distinción entre las declaraciones y afirmaciones propias del lenguaje hablado y las noticias digitales compartidas en medios. Mientras que en los medios digitales, las noticias falsas suelen utilizar patrones llamativos para captar la atención del lector en las declaraciones no se encuentran estos patrones de manera tan evidente. Esta diferencia hace plantear la idea futura de desarrollar un sistema que haciendo uso de PTLMs sea capaz de adaptar sus enfoques de detección de noticias falsas a cada contexto comunicativo.

ABSTRACT

This Master's Thesis addresses the problem of automatic detection of fake news through the use of pre-trained transformer-based language models (PTLMs).

The main objective of the work is to go through experimentation, over some of the different techniques that PTLMs allow to carry out for the automatic detection of news, analyze them from different approaches and measure their degree of adequacy. The aim is to analyze the behavior of different models that make use of these PTLMs with different approaches, in order to be able to extrapolate these ideas and develop them in greater depth in the future.

With the idea of developing the study in a wider spectrum of casuistry, the dataset Liar-plus is used, which contains additional information associated with the different news items (which are oral statements), a brief justification and metadata.

The study revolves around the three data collected in the dataset, and is approached as an incremental process in which the models are built in increasing degree of complexity depending on the data used, incorporating the knowledge acquired during the previous phases.

BERT is used as PTLM throughout the study and its behavior is analyzed as more input information is added, giving special relevance to the different behaviors that occur depending on the way in which the input data are processed.

Thus, the best results are obtained for a BERT twin model to which the available data is presented divided into two inputs that are processed independently, on the one hand the title of the news item and on the other the justification with the metadata.

During the course of the different experiments, it is observed that the results obtained around the detection for the treated dataset (oral statements), are much poorer than those obtained on other datasets from other sources (written digital media). Analyzing the cases, it is observed that much of this difference can be found in the very nature of the data, there being a clear distinction between the statements and assertions of spoken language and digital news shared in the media. While in digital media, fake news often uses eye-catching patterns to capture the reader's attention, in statements these patterns are not so evident. This difference raises the future idea of developing a system that, making use of PTLMs, is capable of adapting its fake news detection approaches to each communicative context.

More information

Item ID: 75835
DC Identifier: https://oa.upm.es/75835/
OAI Identifier: oai:oa.upm.es:75835
Deposited by: Biblioteca Facultad de Informatica
Deposited on: 13 Sep 2023 10:11
Last Modified: 13 Sep 2023 10:11
  • Logo InvestigaM (UPM)
  • Logo GEOUP4
  • Logo Open Access
  • Open Access
  • Logo Sherpa/Romeo
    Check whether the anglo-saxon journal in which you have published an article allows you to also publish it under open access.
  • Logo Dulcinea
    Check whether the spanish journal in which you have published an article allows you to also publish it under open access.
  • Logo de Recolecta
  • Logo del Observatorio I+D+i UPM
  • Logo de OpenCourseWare UPM