Abstract
El fraude es uno de los mayores problemas en la sociedad actual. Dentro de
la Agencia Tributaria Espa~nola existe una gran preocupación por la identificación
y prevención de fraude en la declaración de impuestos de las diferentes entidades
y personas físicas, que alcanza cotas de pérdidas de varios miles de millones de
euros sobre las arcas públicas. Tras un acuerdo con la agencia, varias tesis de fin
de grado y finn de máster de estos últimos a~nos en la Escuela se han centrado en el
intento de explotación de los datos que ésta proporciona, con el objetivo de poder
obtener un modelo de predicción adecuado que nos permita detectar el fraude en
la declaración de impuestos con la mayor precisión posible. Durante este TFM,
además de realizar un análisis por los diferentes algoritmos y técnicas utilizados
comunmente para la detección y predicción de varios tipos de fraude, se profundiza en
un modelo predictivo relativamente reciente, el modelo de regresión logística basado
en distancias y se compara su rendimiento con otros modelos del estado del arte,
como son el modelo de regresión logística tradicional y la técnica de random forests,
sobre el conjunto de datos proporcionado por la Agencia Tributaria Espa~nola.---ABSTRACT---Fraud is a major issue in today's society. Inside Spanish Tax Agency, fraud identi
fication and prevention is seen as a major issue, given the high cost this supposes to
the public purse, resulting in losses of several billions. As result from an agreement
between the university and this organization, several master thesis in this school
have focused in the use of data provided by the Agency to try to build prediction
models with which to be able to detect fraud in new instances. Following this path,
in this thesis a new approach will be proposed, relying in the use of the distance
based logistic regression model, a relatively new concept. We will adapt our dataset
to implement and apply this technique over it, and we will compare the results obtained
from this model to other state-of-the-art models, such as logistic regression
and random forests. We also show a general description of the different methods and
techniques commonly used in the detection and prediction of several of the more
problematic types of frauds.