Tools for the Detection and Analysis of Potentially Unwanted Programs

Rivera Guevara, Richard (2018). Tools for the Detection and Analysis of Potentially Unwanted Programs. Thesis (Doctoral), E.T.S. de Ingenieros Informáticos (UPM). https://doi.org/10.20868/UPM.thesis.53395.

Description

Title: Tools for the Detection and Analysis of Potentially Unwanted Programs
Author/s:
  • Rivera Guevara, Richard
Contributor/s:
  • Caballero, Juan
Item Type: Thesis (Doctoral)
Date: 2018
Subjects:
Faculty: E.T.S. de Ingenieros Informáticos (UPM)
Department: Lenguajes y Sistemas Informáticos e Ingeniería del Software
Creative Commons Licenses: Recognition - No derivative works - Non commercial

Full text

[img]
Preview
PDF - Requires a PDF viewer, such as GSview, Xpdf or Adobe Acrobat Reader
Download (794kB) | Preview

Abstract

Esta tesis estudia los programas potencialmente no deseados (PUP), una categoría de software que, aunque no totalmente malignos, presentan comportamientos que pueden alterar la seguridad o la privacidad de los sistemas en que se instalan. El PUP suele venir empaquetado con freeware, i.e., software propietario que puede usarse sin coste. Un vector popular de distribución del freeware son los portales de descargas, i.e., sitios web que indexan, clasifican y alojan programas. Los portales de descargas pueden ser abusados para distribuir PUP. El freeware suele distribuirse como un instalador, i.e., un programa auxiliar encargado de realizar todos los pasos necesarios para instalar otro programa. Durante la instalación, además de instalar el programa deseado por el usuario, el instalador puede también instalar PUP. El PUP puede ser difícil de desinstalar y puede permanecer en el sistema después de que el usuario intente desinstalarlo. Los sistemas actuales de análisis de malware no son capaces de detectar comportamientos característicos del PUP. Por ejemplo estos sistemas operan sobre una sola ejecución de un programa, mientras que la detección del PUP suele requerir analizar juntas dos ejecuciones: la instalación y la desintalación. Esta tesis presenta nuevas técnicas para detectar y analizar PUP y contiene tres contribuciones principales. Primero, se presenta un estudio de la prevalencia de PUP y malware en portales de descargas, exponiendo los comportamientos abusivos que utilizan sus autores. Segundo, se propone un sistema especialmente diseñado para identificar dinámicamente comportamientos de PUP durante la instalación y desintalación. Tercero, se describe AVCLASS, una herramienta automática de etiquetado, que dada las etiquetas asignadas por los antivirus (AV) a un número potencialmente masivo de muestras, identifica el nombre de familia más probable para cada muestra. Para analizar la distribución de PUP a través de los portales de descargas construimos una plataforma y la usamos para descargar 191K instaladores de freeware para Windows desde 20 portales. Analizando los instaladores medimos una proporción global de PUP y malware entre 8% (estimación conservadora) y 26% (estimación laxa). En 18 de los 20 portales examinados, la cantidad es inferior al 9%. Pero, también encontramos dos portales utilizados exclusivamente para distribuir PUP. Además, detallamos los diferentes comportamientos abusivos utilizados por los autores del PUP. A continuación, presentamos una plataforma para analizar dinámicamente instaladores. Nuestra plataforma ejecuta el instalador, lo navega para completar la instalación, analiza la instalación identificando comportamientos de PUP, identifica la lista de programas instalados, revisa si cada programa instalado tiene un desinstalador, ejecuta los desinstaladores, analiza la desintalación identificando comportamientos de PUP, y compara la instalación y desinstalación determinando si todos los programas se desinstalaron completamente. Finalmente, describimos AVCLASS, una herramienta automática para etiquetar ejecutables maliciosos como variantes de familias conocidas. AVCLASS toma como entrada etiquetas asignadas por los AV de un número de muestras potencialmente masivo, e identifica la familia más probable para cada muestra. Aunque las etiquetas que asignan los AV suelen ser inconsistentes, a menudo no hay otra información disponible para el etiquetado. AVCLASS implementa novedosas técnicas automáticas para abordar tres desafíos debidos a la inconsistencia de las etiquetas de los AV: normalización, eliminación de tokens genéricos y detección de alias. Hemos evaluado AVCLASS en 10 datasets con 8,9M de muestras. AVCLASS alcanza una medida F1 de hasta 93.9 en datasets etiquetados y asigna nombres de familia comúnmente utilizados por los AV. Hemos puesto AVCLASS a disposición de la comunidad. ----------ABSTRACT---------- In this thesis we study potentially unwanted programs (PUP), a category of undesirable software that, while not outright malicious, contains behaviors that may alter the security state or the privacy of the system on which they are installed. PUP often comes bundled with freeware, i.e., proprietary software that can be used free of charge. A popular vector for distributing freeware are download portals, i.e., websites that index, categorize, and host programs. Download portals can be abused to distribute PUP. Freeware is often distributed as an installer, i.e., an auxiliary program in charge of performing all installation steps for the target program. During installation, besides the target program desired by the user, the installer may install PUP as well. PUP may be difficult to uninstall and may persist installed in the system after the user tries to uninstall it. Current malware analysis systems are not able to detect and analyze characteristic behaviors of PUP. For example, current malware analysis systems operate on a single program execution, while detecting incomplete PUP uninstallations requires analyzing together two program executions: the installation and the uninstallation. This thesis presents novel tools to detect and analyze potentially unwanted programs. More concretely, it describes three main contributions. First, it presents a measurement study of PUP prevalence in download portals, exposing the abusive behaviors that authors of malicious software use to distribute their applications through download portals. Second, it proposes a system especially designed to dynamically detect and analyze PUP behaviors during program installation and uninstallation. Third, it describes AVCLASS, an automatic labeling tool that given the AV labels for a potentially massive number of samples, outputs the most likely family for each sample. To analyze the distribution of PUP through download portals, we build a platform to crawl download portals and apply it to download 191KWindows freeware installers from 20 download portals. We analyze the collected installers measuring an overall ratio of PUP and malware between 8% (conservative estimate) and 26% (lax estimate). In 18 of the 20 download portals examined the amount of PUP and malware is below 9%. But, we also find two download portals exclusively used to distribute PPI downloaders. We also detail different abusive behaviors that authors of undesirable programs use to distribute their programs through download portals. We present a platform to perform dynamic behavioral analysis of an input installer. Our platform executes the installer, navigates it to complete a successful installation, analyzes the installation to identify PUP behaviors, identifies the list of installed programs regardless of the installation location, checks whether each installed program has a corresponding uninstaller, executes the uninstallers, analyzes the uninstallation to identify PUP behaviors, and correlates the installation and uninstallation executions to determine if all installed programs were completely uninstalled. Finally, we describe AVCLASS, a tool for automatically labeling malicious executables as variants of known families. AVCLASS takes as input the AV labels for a potentially massive number of samples and outputs the most likely family names for each sample. While AV labels are well-known to be inconsistent, there is often no other information available for labeling. AVCLASS implements novel automatic techniques to address 3 key challenges due to AV labels inconsistencies: normalization, removal of generic tokens, and alias detection. We have evaluated AVCLASS on 10 datasets comprising 8.9 M samples. AVCLASS’s achieves F1 measures up to 93.9 on labeled datasets and samples are labeled with fine-grained family names commonly used by the AV vendors. We have released AVCLASS to the community.

Funding Projects

TypeCodeAcronymLeaderTitle
Horizon 2020ICT-10-2016-731535ElasTestUniversidad Rey Juan Carlos IElasTest: an elastic platform for testing complex distributed large software systems
Government of SpainTIN2015-7013-RDEDETISUnspecifiedUnspecified
Madrid Regional GovernmentS2013/ICE-2731N-GREENS SoftwareUnspecifiedNext-GeneRation Energy-EfficieNt Secure Software

More information

Item ID: 53395
DC Identifier: http://oa.upm.es/53395/
OAI Identifier: oai:oa.upm.es:53395
DOI: 10.20868/UPM.thesis.53395
Deposited by: Archivo Digital UPM 2
Deposited on: 08 Jan 2019 09:36
Last Modified: 08 Jul 2019 22:30
  • Logo InvestigaM (UPM)
  • Logo GEOUP4
  • Logo Open Access
  • Open Access
  • Logo Sherpa/Romeo
    Check whether the anglo-saxon journal in which you have published an article allows you to also publish it under open access.
  • Logo Dulcinea
    Check whether the spanish journal in which you have published an article allows you to also publish it under open access.
  • Logo de Recolecta
  • Logo del Observatorio I+D+i UPM
  • Logo de OpenCourseWare UPM