Algoritmos de aprendizaje automático para detección de fraudes con tarjetas de crédito: Análisis y comparativa

Calvo Pérez, Ismael (2021). Algoritmos de aprendizaje automático para detección de fraudes con tarjetas de crédito: Análisis y comparativa. Proyecto Fin de Carrera / Trabajo Fin de Grado, E.T.S.I. de Sistemas Informáticos (UPM), Madrid.

Description

Title: Algoritmos de aprendizaje automático para detección de fraudes con tarjetas de crédito: Análisis y comparativa
Author/s:
  • Calvo Pérez, Ismael
Contributor/s:
  • Gómez Canaval, Sandra
  • Arroyo Montoro, Fernando
Item Type: Final Project
Degree: Grado en Ingeniería del Software
Date: July 2021
Subjects:
Freetext Keywords: Minería de datos; Análisis de datos; Riesgo de crédito; Sector financiero
Faculty: E.T.S.I. de Sistemas Informáticos (UPM)
Department: Sistemas Informáticos
Creative Commons Licenses: Recognition - No derivative works - Non commercial

Full text

[img]
Preview
PDF - Requires a PDF viewer, such as GSview, Xpdf or Adobe Acrobat Reader
Download (1MB) | Preview

Abstract

El pago con tarjetas de crédito es una práctica cada vez más habitual en la sociedad actual. Por desgracia, esta actividad se ve constantemente amenazada por posibles fraudes en cualquier tipo de sus transacciones. Estas vulnerabilidades acarrean consecuencias negativas para la industria financiera y los usuarios. La minería de datos ha desempeñado un papel destacado en la detección del fraude con tarjetas de crédito. En concreto, la detección de transacciones fraudulentas puede enfocarse como un problema de aprendizaje automático, el cual se afronta como un reto debido a dos razones principales: en primer lugar, los perfiles de los comportamientos normales y fraudulentos cambian constantemente y, en segundo lugar, los conjuntos de datos de fraude con tarjetas de crédito están muy sesgados (distribución de clases desequilibrada). El rendimiento de la detección del fraude en las transacciones de tarjetas de crédito se ve afectado en gran medida por el enfoque de muestreo del conjunto de datos, la selección de variables y la(s) técnica(s) de detección utilizadas. Este Proyecto de Fin de Grado aborda el estudio de las técnicas existentes para tratar con conjuntos de datos desequilibrados y la detección de fraudes con tarjetas de crédito mediante algoritmos de Aprendizaje Automático. Para ello, se lleva a cabo un análisis comparativo de las técnicas de submuestreo (aleatorio) y sobremuestreo (SMOTE) de datos y, tras balancear la muestra, se implementan cuatro algoritmos clasificadores clásicos, a saber: Regresión Logística, k-vecinos más próximos, Máquina de Soporte Vectorial (SVM) y Árbol de Decisiones. Por último, se desarrollan dos redes neuronales profundas (una para cada método de balanceo) cuyos resultados se comparan con el algoritmo que mayor rendimiento haya ofrecido en sus predicciones. Las pruebas experimentales de este Proyecto se han basado en un conjunto de datos (dataset) público, obtenido a través de la plataforma Kaggle y a partir del cual se ha desarrollado un ‘notebook’ implementado en Python. Abstract: Credit card payments are an increasingly common practice in today’s society. Unfortunately, this activity is constantly under threat from credit card fraud, which has negative consequences both for the financial industry and the final user. Data mining has played a prominent role in the detection of the credit card frauds using online transactions. In particular, fraudulent transaction detection can be identified as a machine learning problem, which becomes challenging due to two main reasons: firstly, the profiles of normal and fraudulent behaviours in the transactions are constantly changing and, secondly, credit card fraud datasets are highly skewed (unbalanced class distribution). The performance of fraud detection in credit card transactions is largely affected by the sampling approach of the dataset, the selection of variables and the detection technique(s) used. This Final Degree Project adressess the study of existing techniques for dealing with unbalanced data sets within the detection of credit card frauds context using Machine Learning algorithms. For this purpose, a comparative analysis of the techniques of random undersampling and oversampling (SMOTE) of data is carried out and, after balancing the sample, four classic classifier algorithms are implemented, namely: Logistic Regression, k-nearest neighbours, Support Vector Machine (SVM) and Decision Trees. Finally, two deep neural networks are developed (one for each balancing method) whose results are compared with the algorithm that has offered the best performance in its predictions. The experimental tests of this Project have been based on a public dataset from the Kaggle platform, from which a notebook implemented in Python has been developed.

More information

Item ID: 67976
DC Identifier: https://oa.upm.es/67976/
OAI Identifier: oai:oa.upm.es:67976
Deposited by: Biblioteca Universitaria Campus Sur
Deposited on: 26 Jul 2021 06:39
Last Modified: 25 Sep 2021 22:30
  • Logo InvestigaM (UPM)
  • Logo GEOUP4
  • Logo Open Access
  • Open Access
  • Logo Sherpa/Romeo
    Check whether the anglo-saxon journal in which you have published an article allows you to also publish it under open access.
  • Logo Dulcinea
    Check whether the spanish journal in which you have published an article allows you to also publish it under open access.
  • Logo de Recolecta
  • Logo del Observatorio I+D+i UPM
  • Logo de OpenCourseWare UPM