Y2NTC (Y, ¿yo no te conozco?): sistema de búsqueda de anomalías en estructuras gráficas

Fernández García-Minguillán, Juan Manuel (2017). Y2NTC (Y, ¿yo no te conozco?): sistema de búsqueda de anomalías en estructuras gráficas. Tesis (Master), E.T.S. de Ingenieros Informáticos (UPM).

Descripción

Título: Y2NTC (Y, ¿yo no te conozco?): sistema de búsqueda de anomalías en estructuras gráficas
Autor/es:
  • Fernández García-Minguillán, Juan Manuel
Director/es:
  • Mateos Caballero, Alfonso
Tipo de Documento: Tesis (Master)
Título del máster: Tecnologías de la Información (extinguido)
Fecha: Julio 2017
Materias:
Escuela: E.T.S. de Ingenieros Informáticos (UPM)
Departamento: Inteligencia Artificial
Licencias Creative Commons: Reconocimiento - Sin obra derivada - No comercial

Texto completo

[img]
Vista Previa
PDF (Document Portable Format) - Se necesita un visor de ficheros PDF, como GSview, Xpdf o Adobe Acrobat Reader
Descargar (1MB) | Vista Previa

Resumen

La detección de anomalías se ha convertido en una instrumento muy importante en numerosos ámbitos como la medicina, la seguridad, la ingeniería, el análisis de riesgos, etc. La forma tradicional para la detección de anomalías se centra básicamente en modelar las características de cada entidad como un punto multidimensional. Pero, con el incremento de los datos de tipo relacional el número de técnicas que permiten detectar anomalías en estas estructuras ha aumentado, siendo posible determinar con una cierta probabilidad anomalías en una red creada usando transacciones comerciales mediante teoría de grafos. Este trabajo se centra tanto en crear un framework como un sistema de ayuda a la decisión que permita la detección del fraude «Carrusel» usando la aplicación de teorías de grafos novedosas, respecto al estado del arte. Para ello, el framework abstrae los detalles de las teorías criminológicas gracias a tres componentes principales: Un modelo estocástico basado en procesos de Markov en tiempo discreto donde cada nodo del grafo modela mediante un conjunto de valores numéricos la existencia de una anomalía respecto a su enfoque local o quasi-local. La asignación de un «ranking», basado en la dominancia de Pareto, a cada entidad según la posibilidad de fraude. Una descripción textual que ayude a entender el por qué se ha asignado una entidad como anómala. Los datos utilizados en este trabajo han sido proporcionados por la AEAT (Agencia Estatal de Administración Tributaria). Utilizando las relaciones comerciales superiores a 20 000e entre el 2010 y el 2015, las cuales hacen un total de 32 millones de relaciones. Además, se han utilizado las características más importantes de 715 mil compañías, como el número de empleados, el volumen de ventas anual, la cantidad de IVA deducido, si la compañía está registrada para la realización de operaciones intra-comunitarias, la razón por la que se le ha expulsado de este registro, etc.---ABSTRACT---The anomaly detection objective has become a very important task in the fields of medicine, security, engineering, risk analysis, etc. The common approach to deal with these situations in the financial field is trying to model the main characteristics of each entity as a multidimensional point. However, as the access to relational data has grown, the number of techniques that allow detecting anomalies in these structures has increased, being possible to determine with certain probability anomalies in a network created with commercial transactions using the graph theory. This work focuses both on creating a framework as a decision support system which recognize possible intra-community VAT fraud using the graph theory about novelty detection, which are novel in the state of the art. For this purpose, the framework abstracts the details of criminal theories through three main concepts: A stochastic process based on discrete time Markov process where each node of the graph represents the existence of an anomaly by a set of numerical values regarding local or quasi-local indices. The assignment of a ranking, based on the Pareto dominance, according to the possibility of fraud of each entity. A textual description which explains the reason why this entity seems fraudulent. The data used for this work has been provided by the AEAT (Agencia Estatal de Administración Tributaria). Using the commercial relations over 20 000e between 2010 and 2015, which made about 32 millions of commercial relations. Moreover, the most important characteristics of each 715 thousand companies have been supplied, such as the number of employees, the annual sale volume, the VAT deducted amount, if the company is active in the register of intra-community operators, the reason of the exclusion of this register, etc.

Más información

ID de Registro: 48528
Identificador DC: http://oa.upm.es/48528/
Identificador OAI: oai:oa.upm.es:48528
Depositado por: Biblioteca Facultad de Informatica
Depositado el: 27 Nov 2017 09:20
Ultima Modificación: 27 Nov 2017 09:20
  • Open Access
  • Open Access
  • Sherpa-Romeo
    Compruebe si la revista anglosajona en la que ha publicado un artículo permite también su publicación en abierto.
  • Dulcinea
    Compruebe si la revista española en la que ha publicado un artículo permite también su publicación en abierto.
  • Recolecta
  • e-ciencia
  • Observatorio I+D+i UPM
  • OpenCourseWare UPM