Autocodificador evolutivo de red Bayesiana para detección de anomalías aplicado a ciberseguridad

Casajús Setién, Jorge (2022). Autocodificador evolutivo de red Bayesiana para detección de anomalías aplicado a ciberseguridad. Thesis (Master thesis), E.T.S. de Ingenieros Informáticos (UPM).

Description

Title: Autocodificador evolutivo de red Bayesiana para detección de anomalías aplicado a ciberseguridad
Author/s:
  • Casajús Setién, Jorge
Contributor/s:
  • Bielza Lozoya, María Concepción
  • Larrañaga Múgica, Pedro
Item Type: Thesis (Master thesis)
Masters title: Inteligencia Artificial
Date: September 2022
Subjects:
Faculty: E.T.S. de Ingenieros Informáticos (UPM)
Department: Inteligencia Artificial
Creative Commons Licenses: Recognition - No derivative works - Non commercial

Full text

[img] PDF - Requires a PDF viewer, such as GSview, Xpdf or Adobe Acrobat Reader
Download (1MB)

Abstract

El presente Trabajo de Fin de Máster persigue el objetivo de diseñar e implementar un sistema novedoso de detección de anomalías con redes Bayesianas que incorpore un proceso de aprendizaje generativo-adversarial basado en la técnica de entrenamiento para redes neuronales de igual nombre. Los problemas de detección de anomalías constituyen una rama de estudio fundamental en machine learning. La forma más frecuente que toma este problema en escenarios reales es la de la detección semisupervisada de instancias irregulares a partir de datos etiquetados positivamente, es decir, sin anomalías. Esto requiere la construcción de un modelo capaz de capturar el comportamiento normal de los datos de un conjunto de entrenamiento compuesto exclusivamente por datos categorizados como normales. Así, nuevas instancias nunca antes vistas por el modelo pueden ser comparadas con la noción de normalidad inducida del conjunto de datos de entrenamiento para ser etiquetadas − o no − como anómalas. En particular, el detector de anomalías desarrollado constituye una nueva forma de resolver un problema real de ciberseguridad: la detección de intrusiones en una red de computadores a través del análisis del tráfico que la atraviesa. Este enfoque al problema, si bien supone la asunción (no siempre correcta) de que una anomalía en el tráfico de red implica una amenaza de intrusión, permite la detección de ciberataques nuevos, pues no depende del reconocimiento de un patrón de ataque previamente observado. En la tarea de modelización de un patrón de comportamiento, los modelos generativos y, concretamente, las redes generativo-adversariales (GANs), han demostrado tener un excelente rendimiento. Por este motivo, en la última década se han propuesto numerosos algoritmos de detección de anomalías basados en GANs, muchos de ellos empleando además una estructura de autocodificador para la detección de irregularidades en los datos. Lo más frecuente es que este tipo de algoritmos empleen redes neuronales profundas como agente inteligente, lo que conlleva ciertas desventajas. En este trabajo se presenta una metodología diferente para la detección de anomalías semisupervisada basada en el uso de redes Bayesianas cuyo proceso de aprendizaje se lleva a cabo a través de un entrenamiento generativo-adversarial siguiendo una estrategia evolutiva, con el objetivo principal de paliar la falta de interpretabilidad intrínseca de las redes neuronales profundas. El uso de redes Bayesianas obedece al objetivo de mejorar la capacidad del modelo detector de anomalías de ser interpretado por un operador o usuario. Este punto es clave en ámbitos en los que se requiere comprender por qué un sistema inteligente ha llegado a una conclusión determinada, especialmente cuando ésta es crítica para la toma de una decisión que puede tener un efecto perjudicial sobre una persona. Este dilema ético ha provocado que en áreas como la medicina o la ciberseguridad no puedan ser utilizados sistemas "de caja negra", como las redes neuronales profundas, que por su estructura en capas se hallan en el extremo menos interpretable de los modelos de inteligencia artificial. No obstante, son las arquitecturas más complejas y, por tanto, menos interpretables, las que frecuentemente proveen los mejores resultados, lo que abre una línea de investigación para tratar de encontrar el equilibrio ideal entre interpretabilidad y rendimiento en cada aplicación práctica. El modelo presentado ha sido evaluado en un problema real de detección de anomalías en ciberseguridad, obteniendo resultados parejos a los de otros algoritmos de detección de anomalías basados en GANs y en redes Bayesianas puras, pero estableciendo una alternativa híbrida a ambos en términos de interpretabilidad y rendimiento.---ABSTRACT---This master’s thesis pursues the main goal of designing and implementing a novel anomaly detection system based on Bayesian networks, including a generative-adversarial learning algorithm, in the sense that it mimics the way generative-adversarial neural networks are trained. Anomaly detection is nowadays a fundamental problem in machine learning. Semisupervised detection of outliers from only positively labeled instances (without anomalies), which is among the most frequent forms of this problem in real scenarios, requires for a model to capture the normal behaviour of data from a training set exclusively comprised of normal-labelled instances, so new unseen samples can be afterwards compared to the induced notion of normality to be flagged -or not- as anomalous. Particularly, the developed anomaly detection model represents a new way of solving a real cybersecurity problem: intrusion detection in a computer network by traffic data analysis. This perspective of the problem, though based on the (not always correct) assumption that an anomaly in network traffic implies an intrusion in the net, allows for the detection of previously unseen cyberattacks, since it is not dependent on recognising the signature of an attack. In modelling a certain pattern of behaviour, generative models such as generative-adversarial networks (GANs) have proved to have great performance. Thus, numerous anomaly detection algorithms with GANs at their core have been proposed, most of them relying on an autoencoder for the AD task. Most often, GAN-based algorithms are powered by deep neural networks, with the downsides this entails. In the present work, a novel approach to semi-supervised AD with Bayesian networks using generative-adversarial training and an evolutive strategy is proposed, which aims to palliate the intrinsic lack of interpretability of deep neural networks. The usage of Bayesian networks responds to the need of improving the model’s inherent capability to be understood by an operator or a user. The interpretability capacity of a model remains a key aspect in fields where comprehension of the reasoning underlying a certain result of an intelligent system is required, specially in cases when decisions stemming from these results can have a negative impact in people’s lives. This ethical dilemma has pushed areas such as medicine or cybersecurity to refuse black-box intelligent systems, as deep neural networks, which stand at the lessinterpretable side of the spectrum of models due to their layered symbolic structure. However, it is the more complex architectures (and thus, the less-interpretable ones) that tend to offer the best performance, opening a way for a new research line aiming to find the ideal balance between interpretability and performance for each practical scenario. The proposed model will be tested on a real-world anomaly detection problem in cybersecurity, performing on par with other AD algorithms based on GANs and Bayesian networks, therefore providing a hybrid alternative to both in terms of interpretability and performance.

More information

Item ID: 71723
DC Identifier: https://oa.upm.es/71723/
OAI Identifier: oai:oa.upm.es:71723
Deposited by: Biblioteca Facultad de Informatica
Deposited on: 19 Sep 2022 07:57
Last Modified: 19 Sep 2022 07:57
  • Logo InvestigaM (UPM)
  • Logo GEOUP4
  • Logo Open Access
  • Open Access
  • Logo Sherpa/Romeo
    Check whether the anglo-saxon journal in which you have published an article allows you to also publish it under open access.
  • Logo Dulcinea
    Check whether the spanish journal in which you have published an article allows you to also publish it under open access.
  • Logo de Recolecta
  • Logo del Observatorio I+D+i UPM
  • Logo de OpenCourseWare UPM