Beyond Trust: Evaluating Targeted Data Poisoning Threats in Large Language Models

Morales Sánchez de Prados, Francisco Javier (2024). Beyond Trust: Evaluating Targeted Data Poisoning Threats in Large Language Models. Tesis (Master), E.T.S.I. de Sistemas Informáticos (UPM).

Descripción

Título:	Beyond Trust: Evaluating Targeted Data Poisoning Threats in Large Language Models
Autor/es:	Morales Sánchez de Prados, Francisco Javier
Director/es:	Blasco Alis, Jorge https://orcid.org/0000-0003-4392-9023 Martín García, Alejandro https://orcid.org/0000-0002-0800-7632
Tipo de Documento:	Tesis (Master)
Título del máster:	Aprendizaje Automático y Datos Masivos
Fecha:	Octubre 2024
Materias:	Informática
Palabras Clave Informales:	Large language models (LLMs); Envenenamiento de datos; Data poisoning; CodeT5; Phi3; Prompt
Escuela:	E.T.S.I. de Sistemas Informáticos (UPM)
Departamento:	Sistemas Informáticos
Licencias Creative Commons:	Reconocimiento - Sin obra derivada - No comercial

Texto completo

[thumbnail of TESIS_MASTER_FRANCISCO_JAVIER_MORALES_SANCHEZ_DE_PRADOS.pdf]

PDF (Portable Document Format) - Acceso permitido solamente a usuarios en el campus de la UPM - Se necesita un visor de ficheros PDF, como GSview, Xpdf o Adobe Acrobat Reader
Descargar (1MB)

Resumen

El rápido avance y el despliegue generalizado de grandes modelos de lenguaje (LLMs) en todas las industrias han introducido nuevos riesgos de seguridad, en particular en forma de ataques de envenenamiento de datos y manipulación general de los LLMs. Esta tesis investiga la vulnerabilidad de los LLMs a los ataques de envenenamiento de datos, centrándose en los efectos intersectoriales y el efecto «sangrado», en el que los resultados envenenados dirigidos a un dominio influyen y se cuelan en otros. Mediante una serie de experimentos con modelos como Phi3, CodeT5 y CodeGen, observamos una susceptibilidad variada al envenenamiento de datos, revelando diferencias significativas entre arquitecturas y tamaños de modelos.

Las principales conclusiones demuestran que los modelos de mayor tamaño, como Phi3, son más resistentes al envenenamiento, mientras que los modelos de tamaño medio, como CodeT5 y CodeGen, mostraron mayores tasas de éxito en el envenenamiento, pero con una notable degradación de la calidad de los resultados, especialmente en los modelos más pequeños. En particular, los resultados envenenados de CodeT5 no tenían sentido, pero eran propensos a ser envenenados y a presentar envenenamientos que afectaban a múltiples industrias, lo que suscitaba preocupación por el potencial de desinformación generalizada, manipulación, inyección de código malicioso y otras actividades potencialmente delictivas. Por el contrario, CodeGen produjo salidas sintácticamente correctas pero envenenadas cuando fue atacado, subrayando el riesgo de tales ataques en aplicaciones del mundo real donde se despliega código generado por modelos.

Este estudio contribuye al creciente corpus de investigación sobre seguridad de la IA poniendo de relieve los retos que plantean los ataques de envenenamiento de datos dirigidos y entre sectores, y sugiriendo futuras líneas de investigación. Este trabajo subraya la importancia de la evaluación continua y propone el desarrollo de defensas basadas en prompts de sistema para mitigar los riesgos que plantean los ataques de todo tipo contra sistemas basados en LLMs. Además, se proponen otras vías para aprovechar prompts de sistema y sistemas de evaluación basados en prompts de sistema para hacer frente a las vulnerabilidades sin recurrir a procesos de reentrenamiento que consumen muchos recursos.

Abstract:

The rapid advancement and widespread deployment of large language models across industries have introduced new security risks, particularly in the form of data poisoning attacks and general LLM manipulation. This thesis investigates the vulnerability of LLMs to data poisoning attacks, with a focus on cross-industry effects and the "bleeding" effect, where poisoned outputs targeting one domain influence and creep into others. Through a series of experiments on models like Phi3, CodeT5, and CodeGen, we observed varied susceptibility to data poisoning, revealing significant differences between model architectures and sizes.

Key findings demonstrate that larger models, such as Phi3, are more resistant to poisoning, while mid-sized models, such as CodeT5 and CodeGen, exhibited higher poisoning success rates, but with notable degradation in output quality, especially in smaller models. In particular, CodeT5’s poisoned outputs were non-sensical, yet prone to being poisoned and presenting poisoning affecting multiple industries, raising concerns about the potential for widespread misinformation, manipulation, malicious code injection, and other such potentially criminal activities. Conversely, CodeGen produced syntactically correct yet poisoned outputs when attacked, underscoring the risk of such attacks in real-world applications where modelgenerated code is deployed.

This study contributes to the growing body of research on AI security by highlighting the challenges posed by cross-industry and targeted data poisoning attacks and suggesting future research directions. This work emphasizes the importance of continuous evaluation and proposes the development of system-prompt-based defenses to mitigate the risks posed by attacks of various types agains LLM-based systems. Additionally, other avenues for leveraging system prompts and prompt-based evaluation systems to address vulnerabilities without resorting to resource-intensive retraining processes are proposed.

Más información

ID de Registro:	84863
Identificador DC:	https://oa.upm.es/84863/
Identificador OAI:	oai:oa.upm.es:84863
Depositado por:	Biblioteca Universitaria Campus Sur
Depositado el:	16 Nov 2024 07:15
Ultima Modificación:	16 Nov 2024 07:15

Estadísticas

Exportar cita

Editar (sólo personal del Archivo)

En esta página

Menú principal

Buscar

Beyond Trust: Evaluating Targeted Data Poisoning Threats in Large Language Models

Cita

Descripción

Texto completo

Resumen

Más información

Acciones

Documentos

El repositorio

Agrupados por ...

Datos Investigación

Financiadores

Especiales

En otros formatos

Redes sociales

Información adicional