Desarrollo de un modelo de clasificación de malware Linux ARM según su funcionalidad utilizando técnicas de aprendizaje automático

Quevedo Muñoz, José Antonio (2020). Desarrollo de un modelo de clasificación de malware Linux ARM según su funcionalidad utilizando técnicas de aprendizaje automático. Thesis (Master thesis), E.T.S.I. Telecomunicación (UPM).

Description

Title: Desarrollo de un modelo de clasificación de malware Linux ARM según su funcionalidad utilizando técnicas de aprendizaje automático
Author/s:
  • Quevedo Muñoz, José Antonio
Contributor/s:
  • Pozo Coronado, Luis
Item Type: Thesis (Master thesis)
Masters title: Ciberseguridad
Date: 2020
Subjects:
Freetext Keywords: aprendizaje automático supervisado, clasificación de malware, etiquetado, análisis estático, análisis dinámico, LiSa, VirusTotal, AVclass, Linux, Debian, ARM, IoT, selección de características, tfidf, sandbox
Faculty: E.T.S.I. Telecomunicación (UPM)
Department: Otro
Creative Commons Licenses: Recognition - No derivative works - Non commercial

Full text

[img]
Preview
PDF - Requires a PDF viewer, such as GSview, Xpdf or Adobe Acrobat Reader
Download (3MB) | Preview

Abstract

En este proyecto se han aplicando técnicas de aprendizaje automático supervisado sobre un conjunto de ficheros ejecutables Linux de arquitectura ARM con el objetivo de predecir su funcionalidad partiendo de las hipótesis de que las muestras son malware. Como verdad fundamental se ha tomado el etiquetado obtenido de cada muestra de VirusTotal, que proporciona la interpretación de 63 antivirus, las cuales han sido unificadas con AVClass. Esta verdad fundamental se describe como una variable objetivo discreta multiclase. Se han generado los informes de análisis estático y dinámico de cada muestra utilizando la herramienta LiSa. Estos informes han sido preprocesados a modo de bolsa de palabras o bag-of-words, elaborando así una lista con todas las palabras que aparecen en cada uno de estos informes junto con su número de apariciones. La selección de características se ha hecho eliminando en primer lugar las palabras con menor número de apariciones para evitar la identificación individual de las muestras por parte de los modelos y para reducir el coste computacional del procedimiento. Despues se ha aplicado un filtro TFIDF y se han escogido las k-mejores características utilizando el filtro específico para clasificación x2. Estos procesos de filtrado de características se han hecho sobre el subconjunto de entrenamiento para evitar fugas de datos, lo que nos llevaría a resultados irreales. Con este dataset se han entrenado, medido y comparado 42 combinaciones de técnicas de muestreo y modelos de clasificación. La conclusiones más destacables han sido que ninguna de las técnicas de muestreo ha supuesto una ventaja para clasificar malware en este contexto, y que aunque ninguno de los modelos obtenidos tiene capacidad de aportar información relevante en una aplicación real, el modelo que mejor comportamiento ha mostrado y con mejores posibilidades de obtener resultados satisfactorios en futuros proyectos es la red neuronal.

More information

Item ID: 64465
DC Identifier: http://oa.upm.es/64465/
OAI Identifier: oai:oa.upm.es:64465
Deposited by: Biblioteca ETSI Telecomunicación
Deposited on: 07 Oct 2020 10:47
Last Modified: 07 Oct 2020 10:47
  • Logo InvestigaM (UPM)
  • Logo GEOUP4
  • Logo Open Access
  • Open Access
  • Logo Sherpa/Romeo
    Check whether the anglo-saxon journal in which you have published an article allows you to also publish it under open access.
  • Logo Dulcinea
    Check whether the spanish journal in which you have published an article allows you to also publish it under open access.
  • Logo de Recolecta
  • Logo del Observatorio I+D+i UPM
  • Logo de OpenCourseWare UPM