Application of Machine Learning to Variable Importance Analysis

Ahrazem Dfuf, Ismael (2022). Application of Machine Learning to Variable Importance Analysis. Tesis (Doctoral), E.T.S.I. Telecomunicación (UPM). https://doi.org/10.20868/UPM.thesis.71719.

Descripción

Título:	Application of Machine Learning to Variable Importance Analysis
Autor/es:	Ahrazem Dfuf, Ismael
Director/es:	Mira Mcwilliams, José Manuel https://orcid.org/0000-0001-6105-8714
Tipo de Documento:	Tesis (Doctoral)
Fecha de lectura:	15 Marzo 2022
Materias:	Telecomunicaciones
ODS:	07. Energía asequible y no contaminante 09. Industria, innovación e infraestructura
Escuela:	E.T.S.I. Telecomunicación (UPM)
Departamento:	Ingeniería de Organización, Administración de Empresas y Estadística
Licencias Creative Commons:	Reconocimiento - Sin obra derivada - No comercial

Texto completo

PDF (Portable Document Format) - Se necesita un visor de ficheros PDF, como GSview, Xpdf o Adobe Acrobat Reader
Descargar (3MB)

Resumen

Variable Importance Analysis (VIA) plays a pivotal role in the modelling process of any Machine Learning (ML) algorithm since it allows us to identify and measure the impact of input variables on the model output, interpret the highly complex black box model and explain their predictions. This analysis can potentially improve the ML/AI model performance when screening the nonrelevant variables and help to gain the trust of the model users. Generally, two main approaches for VIA are encountered in the literature: Global Sensitivity Analysis (GSA), that through surrogate models based on ML, aims at quantifying the portion of the output variance due to individual and interaction effects of input variables, and Variable Importance Techniques (VIT) leveraging ML algorithms, where the objective is to measure the predictive power of the input variables on the output. In both approaches, the goal is to establish an importance measure that identifies interactions and nonlinearities among input variables and rank them according to their effects on the model output. This thesis is organized in two parts. First, a comprehensive review of recent advances in VIA methods is presented. Second, two new methodologies for VIA based on the Conditional Inference Tree algorithm, the Permutation Importance Framework and a _-divergence measure are proposed. The new methods address the importance analysis in multioutput response models and imbalanced datasets. The proposed methods have been tested in simulated cases and applied to the Spanish Electricity market in order to identify and quantify the relevant predictors for the demand and price simultaneously along with spike electricity prices. ----------RESUMEN---------- El Análisis de Importancia de Variable (AIV) juega un papel fundamental en el proceso de modelado de cualquier algoritmo de aprendizaje automático (AA) ya que permite identificar y medir el impacto de las variables de entrada en la variable de salida del modelo estudiado, interpretar los modelos cada vez más complejos considerados cajas negras or explicar sus predicciones. Este análisis puede mejorar el rendimiento del modelo al identificar y eliminar las variables no relevantes. En la literatura se pueden encontrar dos enfoques principales de AIV: Análisis de Sensibilidad, que a través de modelos de sustitución basados en AA, tienen como objetivo cuantificar la variabilidad de la variable de salida del modelo debido a la variabilidad de las variables de entrada, y Técnicas de Importancia de Variable basadas en AA que pretenden medir el poder predictivo de las variables de entrada sobre la salida. En ambos métodos, el objetivo es establecer una medida de importancia que identifica y mide interacciones y no linealidades entre las variables de entrada, clasificándolas así según sus efectos en la salida del modelo. Esta tesis está organizada en dos partes. En primer lugar, se presenta una revisión exhaustiva de los recientes avances en métodos de AIV. En segundo lugar, se proponen dos nuevas metodologías basadas en el algoritmo de árboles Conditional Inference T ree, el marco de importancia basado en la técnica de permutación de variables y la medida de divergencia entre probabilidades _-divergence. Los métodos propuestos han sido aplicados al análisis de importancia en modelos de respuesta multivariante y problemas de clasificación de conjuntos de datos desequilibrados. Los métodos propuestos han sido probados en casos simulados y aplicados al mercado eléctrico español con el fin de identificar y cuantificar los predictores relevantes para la demanda y el precio simultáneamente además de factores responsables de precios de electricidad extremos.

Más información

ID de Registro:	71719
Identificador DC:	https://oa.upm.es/71719/
Identificador OAI:	oai:oa.upm.es:71719
Identificador DOI:	10.20868/UPM.thesis.71719
Depositado por:	Archivo Digital UPM 2
Depositado el:	19 Sep 2022 05:59
Ultima Modificación:	19 Mar 2023 23:30

Estadísticas

Exportar cita

Editar (sólo personal del Archivo)

En esta página

Menú principal

Buscar

Application of Machine Learning to Variable Importance Analysis

Cita

Descripción

Texto completo

Resumen

Más información

Acciones

Metrics

Altmetrics probando

Dimensions

Documentos

El repositorio

Agrupados por ...

Datos Investigación

Financiadores

Especiales

En otros formatos

Redes sociales

Información adicional