Abstract
El fraude es una de las amenazas mas elaboradas de nuestros tiempos. Este constituye un problema universal y de suma complejidad. Varios de los conflictos económicos más grandes de la historia involucraron firmas que incurrieron en grandes fraudes. En consecuencia, se ha puesto un énfasis considerable en el desarrollo de enfoques automatizados para detectar el fraude financiero. Múltiples tecnologías en base al aprendizaje automático se han convertido en un área de investigación académica en el ámbito de detección de fraude. La mayoría de la investigación en base al aprendizaje automático se concentra en la fase de creación de modelos de proceso eficientes para su detección. En esta tesis, se realiza un compendio de técnicas pertenecientes al estado del arte con animo de optimizar la detección de fraude. Se abordan algunos de los métodos mas efectivos e innovadores para el desarrollo de modelos predictivos de gran rendimiento haciendo una división entre aquellos supervisados y no supervisados. Se tratará también la detección de anomalías basadas en grafos. Ahí, se hará hincapié en metodologías de grafos estáticos basadas en estructura, comunidades y multi-atributo. Por otro lado, y sabiendo que existe una enorme falta de datos disponibles sobre servicios financieros y especialmente en el emergente dominio de transacciones monetarias, la aplicación se llevará a cabo con el análisis de conjuntos sintéticos. La la naturaleza intrínsecamente privada de las transacciones financieras, nos lleva a conjuntos de datos no disponibles públicamente. Es por ello que en esta tesis nos aprovechamos de un conjunto de datos elaborados de forma artificial y fehaciente. Partiendo de esta base, se comienza con un análisis visual del conjunto, donde se definen los patrones mas salientes y así mismo modelables por algoritmo. Subsecuente a este paso, se procede a la predicción y estudio de fraude que se obtiene mediante el resultado obtenido por la aplicación aquí implementada. Esta se realiza mediante el entrenamiento de múltiples algoritmos combinados en serie, tanto supervisados como no supervisados, donde se definirá el cual con mejor rendimiento en base a un promedio de las métricas mas significativas para el conjunto y donde dependiendo de la importancia de cada métrica definida previamente por el usuario, se obtiene el mejor modelo para el mismo. Realizado enteramente en un entorno de Python y donde las variables de los resultados y los modelos quedan guardados para un uso futuro. Por ultimo se lleva a cabo el análisis del grafo. Este se realiza mediante un proceso de conversión del grafo a vectores teniendo en cuenta las características mas influyentes y significativas del conjunto para su transformación y donde se aplicarán de nuevo un entrenamiento y testeo de los algoritmos de detección previos y así concluir con una comparación y métrica del conjunto final.