Checking Android applications behaviour against Google Play descriptions at scale

Domínguez Álvarez, Daniel (2019). Checking Android applications behaviour against Google Play descriptions at scale. Thesis (Master thesis), E.T.S. de Ingenieros Informáticos (UPM).

Description

Title: Checking Android applications behaviour against Google Play descriptions at scale
Author/s:
  • Domínguez Álvarez, Daniel
Contributor/s:
  • Mariño Carballo, Julio
  • Gorla, Alessandra
Item Type: Thesis (Master thesis)
Masters title: Software y Sistemas
Date: January 2019
Subjects:
Freetext Keywords: Android; Detección de malware; Análisis de descripciones; Clustering; Malware detection; Description analysis;
Faculty: E.T.S. de Ingenieros Informáticos (UPM)
Department: Lenguajes y Sistemas Informáticos e Ingeniería del Software
Creative Commons Licenses: Recognition - No derivative works - Non commercial

Full text

[img]
Preview
PDF - Requires a PDF viewer, such as GSview, Xpdf or Adobe Acrobat Reader
Download (561kB) | Preview

Abstract

En este trabajo fin de máster presento una nueva versión de la técnica conocida como CHABADA. El objetivo de la técnica es la búsqueda de correlaciones entre implementation de aplicaciones de Android y lo que anuncian sobre ellas en la tienda de aplicaciones. Esta nueva versión se centra en mejorar la escalabilidad de la anterior implementation con el objetivo de ser capaz de ejecutar la técnica con un dataset proveniente de la base de datos Tacyt. Tacyt es una plataforma de aplicaciones de Android obtenidas por ElevenPaths, una subsidiaria de Telefónica. Dentro de la conferencia JNIC investigadores de España pueden acceder a la base de datos y realizar experimentos sobre ella. A partir de la plataforma generé un dataset de 700000+ aplicaciones para analizar. La técnica usa una combinación de procesamiento de lenguaje natural, clustering y análisis estático para crear clusters de aplicaciones relacionadas entre sí. Dentro de los clusters la técnica extrae el comportamiento común para las aplicaciones del mismo y puede detectar malware dentro del cluster. Un aplicación se considera maliciosa si presenta comportamiento que no es común dentro del cluster. Por ejemplo, dentro de un cluster de aplicaciones de fotografía el comportamiento habitual sería el de acceder a la camara del telefono y al sistema de ficheros. Si una aplicación accediera a la API de SMS tendría un comportamiento fuera de lo común dentro del cluster y por tanto se clasificaría como una anomalía. Junto con las mejoras a la escalabilidad también he obtenido información directamente de la tienda Google Play Store para construir una verdad cercana al mundo real y usar esa verdad para evaluar los algoritmos de aprendizaje que se usan en la técnica.---ABSTRACT---In this master thesis I present a new version of an existing technique known as CHABADA. The goal of the technique is to search for a correlation between Android applications implementation and what is advertised in the store description of the Application. This new version is focused in improving the scalability of the old implementation in order to be able to run the technique with a dataset coming from the Tacyt database. Tacyt is a platform of scraped Android applications obtained by ElevenPaths, a Telefonica company, that is accessible to researchers in the context of the JNIC conference. From this platform I generated a dataset of 700000+ applications to be analyzed. The technique uses a combination of natural language processing, clustering and static analysis for creating clusters of related applications by the topics found in their descriptions. From this clusters the technique extracts the common behavior of the applications and can detect malware in a dataset of applications. A malicious application is classified as such if they show a behavior that is not common for the cluster of applications. For example, in a cluster of photography applications the usual behavior would be to access the camera and file system APIs. If an application accessed the SMS API it would be different from what is common in that cluster and therefore tagged as an anomaly. Along with the scalability improvements, I also obtained information directly from the Google Play Store for building a ground truth similar to the real world that can be used to evaluate the machine learning algorithms used in the technique.

More information

Item ID: 54022
DC Identifier: http://oa.upm.es/54022/
OAI Identifier: oai:oa.upm.es:54022
Deposited by: Biblioteca Facultad de Informatica
Deposited on: 15 Feb 2019 11:20
Last Modified: 15 Feb 2019 11:20
  • Logo InvestigaM (UPM)
  • Logo GEOUP4
  • Logo Open Access
  • Open Access
  • Logo Sherpa/Romeo
    Check whether the anglo-saxon journal in which you have published an article allows you to also publish it under open access.
  • Logo Dulcinea
    Check whether the spanish journal in which you have published an article allows you to also publish it under open access.
  • Logo de Recolecta
  • Logo del Observatorio I+D+i UPM
  • Logo de OpenCourseWare UPM