Checking Android applications behaviour against Google Play descriptions at scale

Domínguez Álvarez, Daniel (2019). Checking Android applications behaviour against Google Play descriptions at scale. Thesis (Master thesis), E.T.S. de Ingenieros Informáticos (UPM).

Description

Title: Checking Android applications behaviour against Google Play descriptions at scale
Author/s:
  • Domínguez Álvarez, Daniel
Contributor/s:
Item Type: Thesis (Master thesis)
Masters title: Software y Sistemas
Date: January 2019
Subjects:
Freetext Keywords: Android; Detección de malware; Análisis de descripciones; Clustering; Malware detection; Description analysis;
Faculty: E.T.S. de Ingenieros Informáticos (UPM)
Department: Lenguajes y Sistemas Informáticos e Ingeniería del Software
Creative Commons Licenses: Recognition - No derivative works - Non commercial

Full text

[thumbnail of TFM_DANIEL_DOMINGUEZ_ALVAREZ.pdf]
Preview
PDF - Requires a PDF viewer, such as GSview, Xpdf or Adobe Acrobat Reader
Download (561kB) | Preview

Abstract

En este trabajo fin de máster presento una nueva versión de la técnica conocida como
CHABADA. El objetivo de la técnica es la búsqueda de correlaciones entre implementation
de aplicaciones de Android y lo que anuncian sobre ellas en la tienda de aplicaciones. Esta
nueva versión se centra en mejorar la escalabilidad de la anterior implementation con el
objetivo de ser capaz de ejecutar la técnica con un dataset proveniente de la base de datos
Tacyt. Tacyt es una plataforma de aplicaciones de Android obtenidas por ElevenPaths,
una subsidiaria de Telefónica. Dentro de la conferencia JNIC investigadores de España
pueden acceder a la base de datos y realizar experimentos sobre ella. A partir de la
plataforma generé un dataset de 700000+ aplicaciones para analizar. La técnica usa una
combinación de procesamiento de lenguaje natural, clustering y análisis estático para crear
clusters de aplicaciones relacionadas entre sí. Dentro de los clusters la técnica extrae el
comportamiento común para las aplicaciones del mismo y puede detectar malware dentro
del cluster. Un aplicación se considera maliciosa si presenta comportamiento que no es
común dentro del cluster. Por ejemplo, dentro de un cluster de aplicaciones de fotografía
el comportamiento habitual sería el de acceder a la camara del telefono y al sistema de
ficheros. Si una aplicación accediera a la API de SMS tendría un comportamiento fuera
de lo común dentro del cluster y por tanto se clasificaría como una anomalía. Junto con
las mejoras a la escalabilidad también he obtenido información directamente de la tienda
Google Play Store para construir una verdad cercana al mundo real y usar esa verdad
para evaluar los algoritmos de aprendizaje que se usan en la técnica.---ABSTRACT---In this master thesis I present a new version of an existing technique known as
CHABADA. The goal of the technique is to search for a correlation between Android
applications implementation and what is advertised in the store description of the
Application. This new version is focused in improving the scalability of the old
implementation in order to be able to run the technique with a dataset coming from
the Tacyt database. Tacyt is a platform of scraped Android applications obtained by
ElevenPaths, a Telefonica company, that is accessible to researchers in the context of the
JNIC conference. From this platform I generated a dataset of 700000+ applications to
be analyzed. The technique uses a combination of natural language processing, clustering
and static analysis for creating clusters of related applications by the topics found in
their descriptions. From this clusters the technique extracts the common behavior of the
applications and can detect malware in a dataset of applications. A malicious application
is classified as such if they show a behavior that is not common for the cluster of
applications. For example, in a cluster of photography applications the usual behavior
would be to access the camera and file system APIs. If an application accessed the SMS
API it would be different from what is common in that cluster and therefore tagged as an
anomaly. Along with the scalability improvements, I also obtained information directly
from the Google Play Store for building a ground truth similar to the real world that can
be used to evaluate the machine learning algorithms used in the technique.

More information

Item ID: 54022
DC Identifier: https://oa.upm.es/54022/
OAI Identifier: oai:oa.upm.es:54022
Deposited by: Biblioteca Facultad de Informatica
Deposited on: 15 Feb 2019 11:20
Last Modified: 15 Feb 2019 11:20
  • Logo InvestigaM (UPM)
  • Logo GEOUP4
  • Logo Open Access
  • Open Access
  • Logo Sherpa/Romeo
    Check whether the anglo-saxon journal in which you have published an article allows you to also publish it under open access.
  • Logo Dulcinea
    Check whether the spanish journal in which you have published an article allows you to also publish it under open access.
  • Logo de Recolecta
  • Logo del Observatorio I+D+i UPM
  • Logo de OpenCourseWare UPM