Application of Machine Learning to Variable Importance Analysis

Ahrazem Dfuf, Ismael (2022). Application of Machine Learning to Variable Importance Analysis. Thesis (Doctoral), E.T.S.I. Telecomunicación (UPM). https://doi.org/10.20868/UPM.thesis.71719.

Description

Title: Application of Machine Learning to Variable Importance Analysis
Author/s:
  • Ahrazem Dfuf, Ismael
Contributor/s:
  • Mira Mcwilliams, José Manuel
Item Type: Thesis (Doctoral)
Read date: 15 March 2022
Subjects:
Faculty: E.T.S.I. Telecomunicación (UPM)
Department: Ingeniería de Organización, Administración de Empresas y Estadística
Creative Commons Licenses: Recognition - No derivative works - Non commercial

Full text

[img] PDF - Users in campus UPM only until 19 March 2023 - Requires a PDF viewer, such as GSview, Xpdf or Adobe Acrobat Reader
Download (3MB)

Abstract

Variable Importance Analysis (VIA) plays a pivotal role in the modelling process of any Machine Learning (ML) algorithm since it allows us to identify and measure the impact of input variables on the model output, interpret the highly complex black box model and explain their predictions. This analysis can potentially improve the ML/AI model performance when screening the nonrelevant variables and help to gain the trust of the model users. Generally, two main approaches for VIA are encountered in the literature: Global Sensitivity Analysis (GSA), that through surrogate models based on ML, aims at quantifying the portion of the output variance due to individual and interaction effects of input variables, and Variable Importance Techniques (VIT) leveraging ML algorithms, where the objective is to measure the predictive power of the input variables on the output. In both approaches, the goal is to establish an importance measure that identifies interactions and nonlinearities among input variables and rank them according to their effects on the model output. This thesis is organized in two parts. First, a comprehensive review of recent advances in VIA methods is presented. Second, two new methodologies for VIA based on the Conditional Inference Tree algorithm, the Permutation Importance Framework and a _-divergence measure are proposed. The new methods address the importance analysis in multioutput response models and imbalanced datasets. The proposed methods have been tested in simulated cases and applied to the Spanish Electricity market in order to identify and quantify the relevant predictors for the demand and price simultaneously along with spike electricity prices. ----------RESUMEN---------- El Análisis de Importancia de Variable (AIV) juega un papel fundamental en el proceso de modelado de cualquier algoritmo de aprendizaje automático (AA) ya que permite identificar y medir el impacto de las variables de entrada en la variable de salida del modelo estudiado, interpretar los modelos cada vez más complejos considerados cajas negras or explicar sus predicciones. Este análisis puede mejorar el rendimiento del modelo al identificar y eliminar las variables no relevantes. En la literatura se pueden encontrar dos enfoques principales de AIV: Análisis de Sensibilidad, que a través de modelos de sustitución basados en AA, tienen como objetivo cuantificar la variabilidad de la variable de salida del modelo debido a la variabilidad de las variables de entrada, y Técnicas de Importancia de Variable basadas en AA que pretenden medir el poder predictivo de las variables de entrada sobre la salida. En ambos métodos, el objetivo es establecer una medida de importancia que identifica y mide interacciones y no linealidades entre las variables de entrada, clasificándolas así según sus efectos en la salida del modelo. Esta tesis está organizada en dos partes. En primer lugar, se presenta una revisión exhaustiva de los recientes avances en métodos de AIV. En segundo lugar, se proponen dos nuevas metodologías basadas en el algoritmo de árboles Conditional Inference T ree, el marco de importancia basado en la técnica de permutación de variables y la medida de divergencia entre probabilidades _-divergence. Los métodos propuestos han sido aplicados al análisis de importancia en modelos de respuesta multivariante y problemas de clasificación de conjuntos de datos desequilibrados. Los métodos propuestos han sido probados en casos simulados y aplicados al mercado eléctrico español con el fin de identificar y cuantificar los predictores relevantes para la demanda y el precio simultáneamente además de factores responsables de precios de electricidad extremos.

More information

Item ID: 71719
DC Identifier: https://oa.upm.es/71719/
OAI Identifier: oai:oa.upm.es:71719
DOI: 10.20868/UPM.thesis.71719
Deposited by: Archivo Digital UPM 2
Deposited on: 19 Sep 2022 05:59
Last Modified: 19 Sep 2022 08:04