Procesamiento masivo de datos en streaming para la detección de ataques en la red usando plataformas de computación ultra escalables

González Dos Reis, Julián (2020). Procesamiento masivo de datos en streaming para la detección de ataques en la red usando plataformas de computación ultra escalables. Proyecto Fin de Carrera / Trabajo Fin de Grado, E.T.S.I. de Sistemas Informáticos (UPM), Madrid.

Description

Title: Procesamiento masivo de datos en streaming para la detección de ataques en la red usando plataformas de computación ultra escalables
Author/s:
  • González Dos Reis, Julián
Contributor/s:
  • Gómez Canaval, Sandra
Item Type: Final Project
Degree: Grado en Ingeniería de Computadores
Date: 2020
Subjects:
Freetext Keywords: Ataques de denegación de servicio; DoS (Denial of Service)
Faculty: E.T.S.I. de Sistemas Informáticos (UPM)
Department: Sistemas Informáticos
Creative Commons Licenses: Recognition - No derivative works - Non commercial

Full text

[img] PDF - Users in campus UPM only - Requires a PDF viewer, such as GSview, Xpdf or Adobe Acrobat Reader
Download (2MB)

Abstract

El uso de las redes de telecomunicaciones aumenta de forma exponencial día a día al igual que el control de seguridad y verificación que estas deben soportar. A través del uso del Machine Learning se puede analizar el tráfico que pasa por la red. Tiene suma importancia la eficiencia del modelo de Machine Learning utilizado pero también es importante ofrecer una alta escalabilidad del análisis de la red a tratar. En este proyecto se analiza y diseña un modelo de Machine Learning para la detección de posibles ataques DoS y se ofrece una posible solución a través de herramientas como Apache Kafka y Apache Spark para tratar los datos en tiempo real con un alto nivel de escalado y una velocidad de cómputo muy eficiente. Dicho análisis ofrece una perspectiva práctica sobre la detección de estos ataques por medio de algoritmos de Machine Learning. Los datasets utilizados para entrenar y crear los modelos de aprendizaje automáticos incluyen datos de tráfico normal y tráfico correspondiente a diversos tipos de ataques, todos ellos agrupados en paquete de datos. Para lograr la solución propuesta, este Proyecto se divide en dos partes. La primera, aborda la búsqueda de un conjunto de datos (dataset) público que incluya diferentes ataques DoS junto a tráfico no anómalo. Una vez seleccionado los datasets, se realiza un análisis distinguiendo el tráfico que pertenece a un ataque y del que no, junto con otras características habituales de cada uno, a partir de la elaboración del modelo de Machine Learning para analizar los datos. La segunda parte, aborda el estudio y preparación de toda la arquitectura computacional en la que se va a integrar el modelo entrenado de Machine Learning. En particular, en esta fase se desarrolla un framework que simulará que los datos del datasets van a ser recibidos en streaming para ser capturados, procesados, almacenados mediante una plataforma ultra-escalable desplegada en en entorno distribuido con técnicas de virtualización. En esta fase, se explicarán en detalle en cada una de las tecnologías a utilizar y las características y especificaciones necesarias para un correcto y eficaz uso. Una vez se ha explicado el desarrollo de estas dos fases, se exponen las reflexiones que se deducen de cada uno de los experimentos y simulaciones realizadas tanto para comprobar la validez del modelo de aprendizaje automático como para confirmar la potencia del framework desarrollado, su potencial uso y sus capacidades. Abstract: The use of telecommunications networks increases exponentially day by day, as does the security control and verification that they must support. Through the use of Machine Learning the traffic that passes through the network can be analyzed. The efficiency of the Machine Learning model used is extremely important, but it is also important to offer a high scalability of the analysis of the network to be treated. This Project analyzes and designs a Machine Learning model for the detection of possible DoS attacks and offers a possible solution through tools such as Apache Kafka and Apache Spark to treat data in real time with a high level of scaling and a very efficient computing speed. This analysis offers a practical perspective of the detection of these attacks using Machine Learning algorithms. The datasets used to train and create the Machine Learning model include normal traffic data and traffic corresponding to various other types of attacks, all of them grouped in a data packet. To achieve the proposed solution, this Project is divided into two parts. The first one addresses searching for a public dataset that includes different DoS attacks along with non-anomalous traffic. Once the dataset is selected, an analysis is made distinguishing the traffic that belongs to an attack and the one that does not, along with other habitual characteristics of each one, based on the elaboration of the Machine Learning model to analyze the data. The second part addresses the study of all the computational arquitecture in which the trained Machine Learning model will be integrated. In particular, in this phase a framework is developed that will simulate that data from the datasets will be received in a distributed environment with virtualization techniques. In this phase, each of the technologies to be used and the characteristics and specifications necessary for correct and efficient use will be explained in detail. Once the development of these two phases has been explained, the reflections that are deduced from each of the experiments and simulations carried out both to check the validity of the Machine Learning model and to confirm the power of the developed framework, its potential use and its capabilities.

More information

Item ID: 64512
DC Identifier: http://oa.upm.es/64512/
OAI Identifier: oai:oa.upm.es:64512
Deposited by: Biblioteca Universitaria Campus Sur
Deposited on: 08 Oct 2020 15:06
Last Modified: 08 Oct 2020 15:06
  • Logo InvestigaM (UPM)
  • Logo GEOUP4
  • Logo Open Access
  • Open Access
  • Logo Sherpa/Romeo
    Check whether the anglo-saxon journal in which you have published an article allows you to also publish it under open access.
  • Logo Dulcinea
    Check whether the spanish journal in which you have published an article allows you to also publish it under open access.
  • Logo de Recolecta
  • Logo del Observatorio I+D+i UPM
  • Logo de OpenCourseWare UPM