Regresión logística basada en distancias para detección de fraude en el IRPF

Moreno Palenzuela, Jorge (2018). Regresión logística basada en distancias para detección de fraude en el IRPF. Thesis (Master thesis), E.T.S. de Ingenieros Informáticos (UPM).

Description

Title: Regresión logística basada en distancias para detección de fraude en el IRPF
Author/s:
  • Moreno Palenzuela, Jorge
Contributor/s:
  • Jiménez Martín, Antonio
Item Type: Thesis (Master thesis)
Masters title: Inteligencia Artificial
Date: 2018
Subjects:
Faculty: E.T.S. de Ingenieros Informáticos (UPM)
Department: Inteligencia Artificial
Creative Commons Licenses: Recognition - No derivative works - Non commercial

Full text

[img]
Preview
PDF - Requires a PDF viewer, such as GSview, Xpdf or Adobe Acrobat Reader
Download (1MB) | Preview

Abstract

El fraude es uno de los mayores problemas en la sociedad actual. Dentro de la Agencia Tributaria Espa~nola existe una gran preocupación por la identificación y prevención de fraude en la declaración de impuestos de las diferentes entidades y personas físicas, que alcanza cotas de pérdidas de varios miles de millones de euros sobre las arcas públicas. Tras un acuerdo con la agencia, varias tesis de fin de grado y finn de máster de estos últimos a~nos en la Escuela se han centrado en el intento de explotación de los datos que ésta proporciona, con el objetivo de poder obtener un modelo de predicción adecuado que nos permita detectar el fraude en la declaración de impuestos con la mayor precisión posible. Durante este TFM, además de realizar un análisis por los diferentes algoritmos y técnicas utilizados comunmente para la detección y predicción de varios tipos de fraude, se profundiza en un modelo predictivo relativamente reciente, el modelo de regresión logística basado en distancias y se compara su rendimiento con otros modelos del estado del arte, como son el modelo de regresión logística tradicional y la técnica de random forests, sobre el conjunto de datos proporcionado por la Agencia Tributaria Espa~nola.---ABSTRACT---Fraud is a major issue in today's society. Inside Spanish Tax Agency, fraud identi fication and prevention is seen as a major issue, given the high cost this supposes to the public purse, resulting in losses of several billions. As result from an agreement between the university and this organization, several master thesis in this school have focused in the use of data provided by the Agency to try to build prediction models with which to be able to detect fraud in new instances. Following this path, in this thesis a new approach will be proposed, relying in the use of the distance based logistic regression model, a relatively new concept. We will adapt our dataset to implement and apply this technique over it, and we will compare the results obtained from this model to other state-of-the-art models, such as logistic regression and random forests. We also show a general description of the different methods and techniques commonly used in the detection and prediction of several of the more problematic types of frauds.

More information

Item ID: 50701
DC Identifier: http://oa.upm.es/50701/
OAI Identifier: oai:oa.upm.es:50701
Deposited by: Biblioteca Facultad de Informatica
Deposited on: 09 May 2018 10:06
Last Modified: 09 May 2018 10:07
  • Logo InvestigaM (UPM)
  • Logo GEOUP4
  • Logo Open Access
  • Open Access
  • Logo Sherpa/Romeo
    Check whether the anglo-saxon journal in which you have published an article allows you to also publish it under open access.
  • Logo Dulcinea
    Check whether the spanish journal in which you have published an article allows you to also publish it under open access.
  • Logo de Recolecta
  • Logo del Observatorio I+D+i UPM
  • Logo de OpenCourseWare UPM