Y2NTC (Y, ¿yo no te conozco?): sistema de búsqueda de anomalías en estructuras gráficas

Fernández García-Minguillán, Juan Manuel (2017). Y2NTC (Y, ¿yo no te conozco?): sistema de búsqueda de anomalías en estructuras gráficas. Thesis (Master thesis), E.T.S. de Ingenieros Informáticos (UPM).

Description

Title: Y2NTC (Y, ¿yo no te conozco?): sistema de búsqueda de anomalías en estructuras gráficas
Author/s:
  • Fernández García-Minguillán, Juan Manuel
Contributor/s:
  • Mateos Caballero, Alfonso
Item Type: Thesis (Master thesis)
Masters title: Tecnologías de la Información (extinguido)
Date: July 2017
Subjects:
Faculty: E.T.S. de Ingenieros Informáticos (UPM)
Department: Inteligencia Artificial
Creative Commons Licenses: Recognition - No derivative works - Non commercial

Full text

[img]
Preview
PDF - Requires a PDF viewer, such as GSview, Xpdf or Adobe Acrobat Reader
Download (1MB) | Preview

Abstract

La detección de anomalías se ha convertido en una instrumento muy importante en numerosos ámbitos como la medicina, la seguridad, la ingeniería, el análisis de riesgos, etc. La forma tradicional para la detección de anomalías se centra básicamente en modelar las características de cada entidad como un punto multidimensional. Pero, con el incremento de los datos de tipo relacional el número de técnicas que permiten detectar anomalías en estas estructuras ha aumentado, siendo posible determinar con una cierta probabilidad anomalías en una red creada usando transacciones comerciales mediante teoría de grafos. Este trabajo se centra tanto en crear un framework como un sistema de ayuda a la decisión que permita la detección del fraude «Carrusel» usando la aplicación de teorías de grafos novedosas, respecto al estado del arte. Para ello, el framework abstrae los detalles de las teorías criminológicas gracias a tres componentes principales: Un modelo estocástico basado en procesos de Markov en tiempo discreto donde cada nodo del grafo modela mediante un conjunto de valores numéricos la existencia de una anomalía respecto a su enfoque local o quasi-local. La asignación de un «ranking», basado en la dominancia de Pareto, a cada entidad según la posibilidad de fraude. Una descripción textual que ayude a entender el por qué se ha asignado una entidad como anómala. Los datos utilizados en este trabajo han sido proporcionados por la AEAT (Agencia Estatal de Administración Tributaria). Utilizando las relaciones comerciales superiores a 20 000e entre el 2010 y el 2015, las cuales hacen un total de 32 millones de relaciones. Además, se han utilizado las características más importantes de 715 mil compañías, como el número de empleados, el volumen de ventas anual, la cantidad de IVA deducido, si la compañía está registrada para la realización de operaciones intra-comunitarias, la razón por la que se le ha expulsado de este registro, etc.---ABSTRACT---The anomaly detection objective has become a very important task in the fields of medicine, security, engineering, risk analysis, etc. The common approach to deal with these situations in the financial field is trying to model the main characteristics of each entity as a multidimensional point. However, as the access to relational data has grown, the number of techniques that allow detecting anomalies in these structures has increased, being possible to determine with certain probability anomalies in a network created with commercial transactions using the graph theory. This work focuses both on creating a framework as a decision support system which recognize possible intra-community VAT fraud using the graph theory about novelty detection, which are novel in the state of the art. For this purpose, the framework abstracts the details of criminal theories through three main concepts: A stochastic process based on discrete time Markov process where each node of the graph represents the existence of an anomaly by a set of numerical values regarding local or quasi-local indices. The assignment of a ranking, based on the Pareto dominance, according to the possibility of fraud of each entity. A textual description which explains the reason why this entity seems fraudulent. The data used for this work has been provided by the AEAT (Agencia Estatal de Administración Tributaria). Using the commercial relations over 20 000e between 2010 and 2015, which made about 32 millions of commercial relations. Moreover, the most important characteristics of each 715 thousand companies have been supplied, such as the number of employees, the annual sale volume, the VAT deducted amount, if the company is active in the register of intra-community operators, the reason of the exclusion of this register, etc.

More information

Item ID: 48528
DC Identifier: http://oa.upm.es/48528/
OAI Identifier: oai:oa.upm.es:48528
Deposited by: Biblioteca Facultad de Informatica
Deposited on: 27 Nov 2017 09:20
Last Modified: 27 Nov 2017 09:20
  • Logo InvestigaM (UPM)
  • Logo GEOUP4
  • Logo Open Access
  • Open Access
  • Logo Sherpa/Romeo
    Check whether the anglo-saxon journal in which you have published an article allows you to also publish it under open access.
  • Logo Dulcinea
    Check whether the spanish journal in which you have published an article allows you to also publish it under open access.
  • Logo de Recolecta
  • Logo del Observatorio I+D+i UPM
  • Logo de OpenCourseWare UPM