@unpublished{upm67976, note = {Unpublished}, year = {2021}, address = {Madrid}, month = {July}, title = {Algoritmos de aprendizaje autom{\'a}tico para detecci{\'o}n de fraudes con tarjetas de cr{\'e}dito: An{\'a}lisis y comparativa}, url = {https://oa.upm.es/67976/}, abstract = {El pago con tarjetas de cr{\'e}dito es una pr{\'a}ctica cada vez m{\'a}s habitual en la sociedad actual. Por desgracia, esta actividad se ve constantemente amenazada por posibles fraudes en cualquier tipo de sus transacciones. Estas vulnerabilidades acarrean consecuencias negativas para la industria financiera y los usuarios. La miner{\'i}a de datos ha desempe{\~n}ado un papel destacado en la detecci{\'o}n del fraude con tarjetas de cr{\'e}dito. En concreto, la detecci{\'o}n de transacciones fraudulentas puede enfocarse como un problema de aprendizaje autom{\'a}tico, el cual se afronta como un reto debido a dos razones principales: en primer lugar, los perfiles de los comportamientos normales y fraudulentos cambian constantemente y, en segundo lugar, los conjuntos de datos de fraude con tarjetas de cr{\'e}dito est{\'a}n muy sesgados (distribuci{\'o}n de clases desequilibrada). El rendimiento de la detecci{\'o}n del fraude en las transacciones de tarjetas de cr{\'e}dito se ve afectado en gran medida por el enfoque de muestreo del conjunto de datos, la selecci{\'o}n de variables y la(s) t{\'e}cnica(s) de detecci{\'o}n utilizadas. Este Proyecto de Fin de Grado aborda el estudio de las t{\'e}cnicas existentes para tratar con conjuntos de datos desequilibrados y la detecci{\'o}n de fraudes con tarjetas de cr{\'e}dito mediante algoritmos de Aprendizaje Autom{\'a}tico. Para ello, se lleva a cabo un an{\'a}lisis comparativo de las t{\'e}cnicas de submuestreo (aleatorio) y sobremuestreo (SMOTE) de datos y, tras balancear la muestra, se implementan cuatro algoritmos clasificadores cl{\'a}sicos, a saber: Regresi{\'o}n Log{\'i}stica, k-vecinos m{\'a}s pr{\'o}ximos, M{\'a}quina de Soporte Vectorial (SVM) y {\'A}rbol de Decisiones. Por {\'u}ltimo, se desarrollan dos redes neuronales profundas (una para cada m{\'e}todo de balanceo) cuyos resultados se comparan con el algoritmo que mayor rendimiento haya ofrecido en sus predicciones. Las pruebas experimentales de este Proyecto se han basado en un conjunto de datos (dataset) p{\'u}blico, obtenido a trav{\'e}s de la plataforma Kaggle y a partir del cual se ha desarrollado un 'notebook' implementado en Python. Abstract: Credit card payments are an increasingly common practice in today's society. Unfortunately, this activity is constantly under threat from credit card fraud, which has negative consequences both for the financial industry and the final user. Data mining has played a prominent role in the detection of the credit card frauds using online transactions. In particular, fraudulent transaction detection can be identified as a machine learning problem, which becomes challenging due to two main reasons: firstly, the profiles of normal and fraudulent behaviours in the transactions are constantly changing and, secondly, credit card fraud datasets are highly skewed (unbalanced class distribution). The performance of fraud detection in credit card transactions is largely affected by the sampling approach of the dataset, the selection of variables and the detection technique(s) used. This Final Degree Project adressess the study of existing techniques for dealing with unbalanced data sets within the detection of credit card frauds context using Machine Learning algorithms. For this purpose, a comparative analysis of the techniques of random undersampling and oversampling (SMOTE) of data is carried out and, after balancing the sample, four classic classifier algorithms are implemented, namely: Logistic Regression, k-nearest neighbours, Support Vector Machine (SVM) and Decision Trees. Finally, two deep neural networks are developed (one for each balancing method) whose results are compared with the algorithm that has offered the best performance in its predictions. The experimental tests of this Project have been based on a public dataset from the Kaggle platform, from which a notebook implemented in Python has been developed.}, keywords = {Miner{\'i}a de datos; An{\'a}lisis de datos; Riesgo de cr{\'e}dito; Sector financiero}, author = {Calvo P{\'e}rez, Ismael} }