Enhancing online banking authentication using Keystroke Dynamics

Sánchez Medrano, María del Carmen (2017). Enhancing online banking authentication using Keystroke Dynamics. Thesis (Master thesis), E.T.S. de Ingenieros Informáticos (UPM).

Description

Title: Enhancing online banking authentication using Keystroke Dynamics
Author/s:
  • Sánchez Medrano, María del Carmen
Contributor/s:
  • Carro Liñares, Manuel
  • Caballero Bayerri, Juan
Item Type: Thesis (Master thesis)
Masters title: Software y Sistemas
Date: July 2017
Subjects:
Faculty: E.T.S. de Ingenieros Informáticos (UPM)
Department: Lenguajes y Sistemas Informáticos e Ingeniería del Software
Creative Commons Licenses: Recognition - No derivative works - Non commercial

Full text

[img]
Preview
PDF - Requires a PDF viewer, such as GSview, Xpdf or Adobe Acrobat Reader
Download (369kB) | Preview

Abstract

The most common method for banks to authenticate users is through a user identifier and password. Unfortunately, this is a method of easy impersonation, because although many banks control brute force attacks by blocking the account after a maximum number of failed login attempts, credentials may be stolen. A big challenge for banks is to identify whether the user is or not the one he is supposed to be. The security measures based on biometrics are the ones that have given better results against this type of attacks. But as a drawback, most of these methods are very expensive to implement and their usability is low since they require special hardware. There are other types of biometric methods based on patterns, like keystroke dynamics. Each user has their own typing pattern which is very dificult to replicate. The diferent speeds between typing keys or the number of uses of a control key can be the diference between one person to the other. In this thesis, we study how to improve bank authentication using keystroke dynamics. In order to achieve this objective, we had to perform data acquisition, data preprocessing and feature extraction processes. In the data acquisition process, a webpage and a Chrome Extension were developed to help with retrieve data for the data collection process. We had to carry out a study about the diferent kinds of authentication processes that banks have and then we had to identify the several cases of use in terms of keystroke dynamics in order to know which events we were going to give support in our development. The dataset we got, was made by 50 users who took the test 450 times spread over two weeks. After getting the datasets, we proceeded to make the data preprocessing and feature extraction processes. Before calculating the features, we had to separate the correct characters and the deletions and ignored those events that were not supported. After that, we built the feature vector files, having into account special events like the usage of Shift key. Finally, an study using machine learning techniques was done. The tool used was WEKA with which we run some very well known classification methods such as C4.5 tree, Random Forest, SVM or K nearest neighbor. The accuracy has been measured using false acceptance rate (FAR), i.e, the ratio of incorrect accepted users, and in false rejection rate (FRR), i.e, the ratio of incorrect rejection user. The results have been satisfactory using most of the methods. The FAR is below 1%, while the FRR could be reduced to 3% in some cases.---ABSTRACT---El método más usado por los bancos para autentificar a los usuarios es el uso de un identificador de usuario y una contrase~na. Lamentablemente, un usuario puede ser fácilmente suplantado ya que aunque muchos bancos controlan los ataques de fuerza bruta bloqueando al usuario que se equivoque un número máximo de veces, las credenciales de un usuario pueden ser robadas igualmente. Un desafío para las entidades bancarias es identificar si el usuario que se identifica en sus sistemas es quien dice ser. Las medidas de seguridad basadas en biometría son las que han dado mejores resultados en contra de este tipo de ataques. Pero como desventaja, la mayoría de estos métodos son muy caros de implementar y la usabilidad de las mismas se ve cuestionada ya que requiere un hardware específico. Existe otro tipo de métodos biométricos basados en patrones. Cuando una persona escribe tiene un patrón característico difícil de replicar. La diferencia de velocidades entre dos teclas consecutivas o el número de usos de teclas de control pueden utilizarse para diferenciar usuarios. En esta tesis, nos vamos a centrar en estudiar cuan útil es el uso de los patrones de tecleo para identifiar al usuario en sistemas bancarios. Este objetivo conlleva, por una parte, realizar una recolección de datos, posteriormente prcesarlos y someterlos a un proceso de extracción de características. Para la recolección de datos se ha desarrollado una serie de herramientas: una plataforma web y una extensión para Chrome. También se ha realizado un estudio preliminar acerca de los diferentes procesos de autenticaci ón que utilizan las entidades bancarias, para luego identificar los casos de uso que contemplaremos en el reconocimiento de patrones de escritura. El dataset obtenido está compuesto por un total de 50 usuarios que han tenido que realizar la prueba 450 veces repartidas en dos semanas. Ya con la posesión de los datos, se ha procedido a la limpieza de los mismos y a la extracción de características. La limpieza de los datos consistió en filtrar los caracteres correctos y tener en cuenta los borrados, así como ignorar eventos no soportados. Tras este proceso, construimos los vectores de características, que además tienen en cuenta eventos como e uso de teclas Shift. Por último, se ha realizado un estudio utilizando técnicas de machine learning. La herramienta utilizada ha sido WEKA, con métodos de clasificación muy conocidos como el árbol C4.5, Random Forest, SVM o los K vecinos más próximos. La extactitud de los datos se han medido en false acceptance rate (FAR) es decir, el ratio de usuarios aceptados erroneamente y false rejection rate (FRR), es decir el ratio de usuarios rechazados erroneamente. Los resultados han sido satisfactorios puesto que en la mayoría de los métodos, el FAR está por debajo del 1%. Así mismo, el FRR pudo ser reducido al 3% en algunos casos.

More information

Item ID: 47733
DC Identifier: http://oa.upm.es/47733/
OAI Identifier: oai:oa.upm.es:47733
Deposited by: Biblioteca Facultad de Informatica
Deposited on: 14 Sep 2017 10:10
Last Modified: 14 Sep 2017 10:10
  • Logo InvestigaM (UPM)
  • Logo GEOUP4
  • Logo Open Access
  • Open Access
  • Logo Sherpa/Romeo
    Check whether the anglo-saxon journal in which you have published an article allows you to also publish it under open access.
  • Logo Dulcinea
    Check whether the spanish journal in which you have published an article allows you to also publish it under open access.
  • Logo de Recolecta
  • Logo del Observatorio I+D+i UPM
  • Logo de OpenCourseWare UPM