Detección de Fake News a través de Inteligencia Artificial

Espinosa Fernández de Sevilla, Rodrigo (2024). Detección de Fake News a través de Inteligencia Artificial. Trabajo Fin de Grado / Proyecto Fin de Carrera, E.T.S.I. de Sistemas Informáticos (UPM), Madrid.

Descripción

Título: Detección de Fake News a través de Inteligencia Artificial
Autor/es:
  • Espinosa Fernández de Sevilla, Rodrigo
Director/es:
Tipo de Documento: Trabajo Fin de Grado o Proyecto Fin de Carrera
Grado: Grado en Tecnologías para la Sociedad de la Información
Fecha: Junio 2024
Materias:
ODS:
Palabras Clave Informales: Noticias falsas; Fake news; Algoritmos de aprendizaje automático; Inteligencia artificial
Escuela: E.T.S.I. de Sistemas Informáticos (UPM)
Departamento: Sistemas Informáticos
Licencias Creative Commons: Reconocimiento - Sin obra derivada - No comercial

Texto completo

[thumbnail of TFG_RODRIGO_ESPINOSA_FERNANDEZ_DE_SEVILLA.pdf] PDF (Portable Document Format) - Se necesita un visor de ficheros PDF, como GSview, Xpdf o Adobe Acrobat Reader
Descargar (865kB)

Resumen

La propagación de noticias falsas en plataformas digitales ha emergido como un desafío crítico para la integridad de la información y la sociedad en general. En respuesta a esta problemática, este proyecto de fin de carrera se enfoca en el desarrollo y la evaluación de modelos de machine learning para la detección y clasificación de noticias falsas. Específicamente, se investiga el desempeño de cuatro clasificadores ampliamente utilizados: Decision Tree (DT), Logistic Regression (LR), Gradient Boosting Classifier (GBC) y Random Forest Classifier (RFC), en la identificación de noticias falsas dentro de conjuntos de datos etiquetados.

El proceso metodológico comenzó con la compilación de dos conjuntos de datos diversos y representativos que abarcan múltiples fuentes de noticias y temáticas. Posteriormente, se llevaron a cabo diversas etapas de preprocesamiento de datos, incluyendo la tokenización, lematización y eliminación de stop words, para preparar el corpus de texto para el análisis. A continuación, se extrajeron características relevantes de los textos de las noticias y sentencias utilizando técnicas avanzadas de procesamiento de lenguaje natural, tales como la extracción de entidades y la representación vectorial de palabras. Una vez obtenidas las características, se procedió a la fase de entrenamiento y evaluación de los clasificadores mencionados anteriormente. Se utilizaron métricas estándar de evaluación de clasificadores, incluyendo la precisión, sensibilidad, especificidad y la puntuación F1 (F1-Score), para comparar el rendimiento de los diferentes modelos en la detección de noticias falsas. Además, se realizaron descripciones detalladas de errores para identificar las áreas de mejora y comprender mejor las limitaciones de cada enfoque. Por otro lado, los resultados experimentales revelaron que tanto Gradient Boosting Classifier como Random Forest Classifier exhibieron un rendimiento superior en comparación con Logistic Regression y Decision Tree, demostrando una mayor precisión y sensibilidad en la detección de noticias falsas. Este hallazgo destaca la eficacia de los enfoques de ensemble learning en la mejora del rendimiento de los clasificadores, al combinar múltiples modelos para obtener decisiones más robustas y precisas. Estos resultados muestran la eficacia del método propuesto para la detección y predicción de noticias falsas en periódicos digitales y redes sociales. Se exploran implicaciones prácticas y estrategias para mitigar la desinformación en línea, resaltando la importancia de la colaboración entre plataformas digitales, medios de comunicación y usuarios.

En definitiva, el enfoque de la investigación se orienta hacia la identificación de patrones específicos en la redacción, estructuras lingüísticas y características semánticas que diferencian las noticias falsas de las verídicas. Adicionalmente, se ahonda en los comportamientos de difusión en redes sociales como indicadores cruciales para detectar de forma temprana información engañosa. el proyecto proporciona una evaluación detallada y comparativa de diversos enfoques de machine learning para la detección de noticias falsas y se sumerge en el análisis y anticipación de noticias falsas en el contexto digital, específicamente en periódicos en línea y plataformas de redes sociales. Todo ello surge como respuesta a la creciente inquietud acerca de la desinformación y su impacto en la sociedad contemporánea.

Como conclusión, este proyecto contribuye al campo emergente de la detección de noticias falsas en medios digitales, ofreciendo un marco práctico y aplicable para abordar el desafío crítico de la desinformación en la era digital. Además, se sugieren posibles direcciones futuras para la investigación, como la mejora continua de modelos predictivos y la adaptación a las cambiantes tácticas utilizadas por los generadores de noticias falsas.

Abstract:

The spread of fake news on digital platforms has emerged as a critical challenge to information integrity and society at large. In response to this issue, this final-year project focuses on the development and evaluation of machine learning models for detecting and classifying fake news. Specifically, the performance of four widely used classifiers: Decision Tree (DT), Logistic Regression (LR), Gradient Boosting Classifier (GBC), and Random Forest Classifier (RFC) is investigated in identifying fake news within labeled datasets.

The methodological process began with compiling two diverse and representative datasets spanning multiple news sources and topics. Subsequently, various data preprocessing stages were conducted, including tokenization, lemmatization, and stop words removal, to prepare the text corpus for analysis. Relevant features were then extracted from the news texts using advanced natural language processing techniques, such as entity extraction and word vector representation. Once the features were obtained, the classifiers mentioned above were trained and evaluated. Standard classifier evaluation metrics, including accuracy, sensitivity, specificity, and F1-Score, were used to compare the performance of different models in fake news detection. Additionally, detailed error descriptions were provided to identify areas for improvement and better understand the limitations of each approach.

Experimental results revealed that both Gradient Boosting Classifier and Random Forest Classifier exhibited superior performance compared to Logistic Regression and Decision Tree, demonstrating higher accuracy and sensitivity in fake news detection. This finding highlights the effectiveness of ensemble learning approaches in enhancing classifier performance by combining multiple models to obtain more robust and accurate decisions. These results showcase the effectiveness of the proposed method for detecting and predicting fake news in digital newspapers and social media platforms. Practical implications and strategies for mitigating online misinformation are explored, emphasizing the importance of collaboration among digital platforms, media outlets, and users.

Ultimately, the research focus is on identifying specific patterns in writing style, linguistic structures, and semantic features that differentiate fake news from real ones. Additionally, it delves into social media diffusion behaviors as crucial indicators for early detection of misleading information. The project provides a detailed and comparative evaluation of various machine learning approaches to fake news detection and delves into the analysis and anticipation of fake news in the digital context, specifically in online newspapers and social media platforms. All of this arises in response to the growing concern about misinformation and its impact on contemporary society.

In conclusion, this project contributes to the emerging field of fake news detection in digital media, offering a practical and applicable framework to address the critical challenge of misinformation in the digital age. Furthermore, possible future research directions are suggested, such as continuous improvement of predictive models and adaptation to the evolving tactics used by fake news generators.

Más información

ID de Registro: 82075
Identificador DC: https://oa.upm.es/82075/
Identificador OAI: oai:oa.upm.es:82075
Depositado por: Biblioteca Universitaria Campus Sur
Depositado el: 11 Jun 2024 05:51
Ultima Modificación: 10 Ago 2024 00:30