Visualization and interpretation in large Bayesian networks

Paniego Blanco, Sergio (2019). Visualization and interpretation in large Bayesian networks. Thesis (Master thesis), E.T.S. de Ingenieros Informáticos (UPM).

Description

Title: Visualization and interpretation in large Bayesian networks
Author/s:
  • Paniego Blanco, Sergio
Contributor/s:
  • Bielza Lozoya, María Concepción
  • Larrañaga Múgica, Pedro
Item Type: Thesis (Master thesis)
Masters title: Inteligencia Artificial
Date: July 2019
Subjects:
Faculty: E.T.S. de Ingenieros Informáticos (UPM)
Department: Inteligencia Artificial
Creative Commons Licenses: Recognition - No derivative works - Non commercial

Full text

[img]
Preview
PDF - Requires a PDF viewer, such as GSview, Xpdf or Adobe Acrobat Reader
Download (2MB) | Preview

Abstract

Dentro de la Inteligencia Artificial, el campo del aprendizaje automático es un subcampo que estudia desarrollar técnicas que permiten inducir conocimiento a partir de un conjunto de datos de entrada. En los últimos años, se ha visto un auge en este campo, debido en parte a la posibilidad de acceso a grandes cantidades de datos y al aumento en la capacidad de computación. Uno de los problemas más acuciantes dentro de este campo es la baja interpretabilidad de la mayoría de los modelos más utilizados, siendo estos sistemas típicamente considerados cajas negras, lo que vendría a decir que son sistemas a los que se les proporciona una entrada y dan una salida pero sin que se pueda llegar a concretar el razonamiento que hay detrás de dicha decisión. Uno de los modelos de aprendizaje automático que sí que permite la interpretabilidad del razonamiento resultante son las redes Bayesianas. En los últimos tiempos, se está viendo una tendencia investigadora que mira hacia la interpretabilidad de los modelos de aprendizaje automático, impulsado en gran medida por el hecho de que para que se puedan implementar estos modelos en sistemas en la vida real, es necesaria una interpretación y explicación del razonamiento que hay detrás para garantizar su buen funcionamiento, la confianza por parte de los usuarios en el sistema y el hallazgo de posibles responsabilidades en caso de fallo. En el presente trabajo, se busca estudiar la visualización e interpretación de este modelo de aprendizaje automático para poder extraer conocimiento a través de los resultados devueltos por el mismo. Este estudio surge para poder aplicarse al proyecto Neurosuites, concretamente a su análisis de redes de regulación genética que relaciona genes según sus relaciones y permite analizar estas relaciones en diferentes circunstancias. Gracias a esta visualización, un experto en la materia podría utilizar la herramienta para, dado un caso de estudio donde se tengan las alteraciones genómicas de un paciente, extraer una predicción del impacto de éstas respecto a las enfermedades con las que están relacionadas. El problema de visualización en este caso de estudio, viene en parte por la complejidad de la red generada, con de decenas de miles de nodos y conexiones, de las que es muy complicado extraer conocimiento solamente con las técnicas que actualmente son el estado de la cuestión en visualización e interpretación de redes Bayesianas. El uso de estas grandes redes es posible gracias a los últimos avances en potencia computacional y especialmente en las GPUs. Teniendo en cuenta esto, se ha tomado como punto base el estado de la cuestión y se ha buscado mejorar y adaptar las técnicas de visualización para poder extraer conocimiento, buscando que el estudio sea interesante no solamente para este caso concreto de aplicación sino para el estudio de la visualización e interpretación de modelos de aprendizaje automático, especialmente para redes Bayesianas.---ABSTRACT---Within artificial intelligence (AI), machine learning is a sub-field that investigates the development of techniques that enable the induction of knowledge from a set of input data. In recent years, this field has experimented an impressive period of development, in part thanks to the access to big data sets and the increase in the computational power. One of the most pressing problems in this field is the low interpretability of the majority of the most used algorithms, usually considering these systems to be black boxes. A black box is a system that given some input data, it processes them and produces and output result but with the problem that there is no good understanding of how the system has reached that result or is untraceable. One of the machine learning algorithms that lets a user to interpret and visualize the reasoning followed to reach a conclusion is Bayesian networks. In recent times, a research trend is observed that investigates the interpretation and explanation of machine learning models, mainly driven by the fact that in order to make use of these models in real-world risk environments, it is necessary an interpretation and explanation of the reasoning behind a certain result so its proper functioning is guaranteed and possible responsibilities in case of failure are found. In this project, the visualization and interpretation of this machine learning model are studied to be able to extract knowledge through the results that it returns. This investigation is created to be applied in Neurosuites project, specifically in its analysis of gene regulatory networks that connects genes based on their relationships and enables the investigation of how these relationships behave in different situations. Thanks to the visualization, a human expert could use the application to a given case study. The visualization problem in this case study, appears partly because of the complexity of the network generated by the genome data, creating tens of thousands of nodes and connections between them. Having such an enormous network, it is really complicated to extract knowledge using only the already known techniques that are today the state of the art in visualization and interpretation of Bayesian networks. The use of these huge networks is possible in part thanks to the latest developments in computational power, especially in GPUs. Considering this situation, the starting point for this project is the current state of the art in Bayesian network visualization and interpretation. The work presented in the project implements improvements and adaptations of the visualization techniques in order to extract knowledge, trying to make this project’s improvements useful not only for the case study but for the general investigation in visualization and interpretation in machine learning models and specially for Bayesian networks.

More information

Item ID: 55998
DC Identifier: http://oa.upm.es/55998/
OAI Identifier: oai:oa.upm.es:55998
Deposited by: Biblioteca Facultad de Informatica
Deposited on: 08 Aug 2019 06:18
Last Modified: 08 Aug 2019 06:18
  • Logo InvestigaM (UPM)
  • Logo GEOUP4
  • Logo Open Access
  • Open Access
  • Logo Sherpa/Romeo
    Check whether the anglo-saxon journal in which you have published an article allows you to also publish it under open access.
  • Logo Dulcinea
    Check whether the spanish journal in which you have published an article allows you to also publish it under open access.
  • Logo de Recolecta
  • Logo del Observatorio I+D+i UPM
  • Logo de OpenCourseWare UPM