Evadiendo detectores de malware basados en redes neuronales

Yuste Moure, Javier (2019). Evadiendo detectores de malware basados en redes neuronales. Proyecto Fin de Carrera / Trabajo Fin de Grado, E.T.S.I. de Sistemas Informáticos (UPM), Madrid.

Description

Title: Evadiendo detectores de malware basados en redes neuronales
Author/s:
  • Yuste Moure, Javier
Contributor/s:
  • García Pardo, Eduardo
Item Type: Final Project
Degree: Grado en Ingeniería del Software
Date: July 2019
Subjects:
Freetext Keywords: Seguridad informática
Faculty: E.T.S.I. de Sistemas Informáticos (UPM)
Department: Sistemas Informáticos
Creative Commons Licenses: Recognition - No derivative works - Non commercial

Full text

[img] Archive (ZIP) - Users in campus UPM only
Download (11MB)
[img] PDF - Users in campus UPM only - Requires a PDF viewer, such as GSview, Xpdf or Adobe Acrobat Reader
Download (1MB)

Abstract

El crecimiento del número de programas maliciosos y su complejidad, en los últimos tiempos, ha demostrado la insostenibilidad de la posición reactiva adoptada por la industria. En este contexto, las técnicas de aprendizaje automático se muestran prometedoras. Actualmente, se han presentado arquitecturas de redes neuronales que operan sobre los bytes de los programas sospechosos. Estos modelos son capaces de aprender de las muestras a clasificar de forma directa, eliminando la necesidad de extraer previamente información de los programas. Entre las técnicas de aprendizaje automático, las basadas en Redes de Neuronas Artificiales (RNA) se han mostrado de gran utilidad recientemente. Sin embargo, las RNA se muestran vulnerables a ataques. Aunque las redes neuronales se entrenan con la premisa de que la distribución de los datos de entrenamiento es similar a la distribución de los datos en el entorno real, este supuesto se incumple cuando la red se enfrenta a un atacante motivado, que introduce perturbaciones en las muestras (adversarial examples) con la intención de lograr una inferencia errónea por parte de la red. En este trabajo, se propone un mecanismo para evaluar la robustez de los modelos que reciben como entrada los bytes del binario a clasificar. Mediante una aproximación de caja negra, el método propuesto es capaz de encontrar variantes evasivas y completamente funcionales, introduciendo bytes optimizados mediante la utilización de Algoritmos Genéticos en diferentes lugares del binario. El modelo propuesto se ha evaluado para analizar la robustez de una red disponible en el estado del arte y de reciente creación (MalConv) para la que el modelo es capaz de encontrar muestras evasivas hasta en un 81% de los casos. Para realizar la experimentación, se ha recopilado y curado un dataset de 3.035 programas maliciosos en formato PE32 recogidos durante el año 2019. Abstract: The growing amount of malicious programs and its ncreasing complexity have shown the unsustainability of the reactive position adopted by the industry in previous years. Thus, machine learning techniques have been widely adopted, thanks to their high detection rates. In recent years, novel binary classiffication approaches have been proposed to operate at raw bytes level. These architectures are able to learn from the input samples in a direct way, eliminating the need to obtain information from the given binaries prior to their classiffication. Artifficial Neural Networks (ANN), a machine learning technique, have been shown successful on the problem of detecting malicious programs. However, these methods are vulnerable by nature. The premise of ANN is that the distribution of data in training samples is similar to that of real binaries at test time. Nevertheless, this premise is broken when the ANN is confronted with a motivated adversary. In this work, a general mechanism to evaluate neural nets robustness against adversarial examples is proposed. Being capable of evaluating classiffiers based on raw bytes, this approach is model-agnostic. By a black-box approximation, it is able to find evasive samples, while preserving their malicious functionality, by introducing optimized bytes using genetic algorithms at different addresses within the given files. The proposed model is evaluated against a well-known state-of-the-art architecture (MalConv) for which we are able to evade up to 81% of the binaries tested. To perform the experiments, we collected and curated a dataset formed by 3.036 different PE32 malware samples obtained during year 2019.

More information

Item ID: 56441
DC Identifier: http://oa.upm.es/56441/
OAI Identifier: oai:oa.upm.es:56441
Deposited by: Biblioteca Universitaria Campus Sur
Deposited on: 16 Sep 2019 06:59
Last Modified: 16 Sep 2019 06:59
  • Logo InvestigaM (UPM)
  • Logo GEOUP4
  • Logo Open Access
  • Open Access
  • Logo Sherpa/Romeo
    Check whether the anglo-saxon journal in which you have published an article allows you to also publish it under open access.
  • Logo Dulcinea
    Check whether the spanish journal in which you have published an article allows you to also publish it under open access.
  • Logo de Recolecta
  • Logo del Observatorio I+D+i UPM
  • Logo de OpenCourseWare UPM