Experimentos computacionales en un estudio de simulación de modelos de regresión para una mejor comprensión de las herramientas Random Forests y Conditional Trees

Rollón de Pinedo, Álvaro (2016). Experimentos computacionales en un estudio de simulación de modelos de regresión para una mejor comprensión de las herramientas Random Forests y Conditional Trees. Proyecto Fin de Carrera / Trabajo Fin de Grado, E.T.S.I. Industriales (UPM).

Descripción

Título: Experimentos computacionales en un estudio de simulación de modelos de regresión para una mejor comprensión de las herramientas Random Forests y Conditional Trees
Autor/es:
  • Rollón de Pinedo, Álvaro
Director/es:
  • Mira McWilliams, Jose Manuel
  • Cara Cañas, Francisco Javier
Tipo de Documento: Proyecto Fin de Carrera/Grado
Grado: Grado en Ingeniería en Tecnologías Industriales
Fecha: Septiembre 2016
Materias:
Palabras Clave Informales: Random Forest, árboles de decisión, MAPE, intervalo de confianza, Conditional Inference Trees, Bagging, aprendizaje automático.
Escuela: E.T.S.I. Industriales (UPM)
Departamento: Ingeniería de Organización, Administración de Empresas y Estadística
Licencias Creative Commons: Reconocimiento - Sin obra derivada - No comercial

Texto completo

[img]
Vista Previa
PDF (Document Portable Format) - Se necesita un visor de ficheros PDF, como GSview, Xpdf o Adobe Acrobat Reader
Descargar (2MB) | Vista Previa

Resumen

El presente Trabajo de Fin de Grado tiene como objetivo fundamental la realización de experimentos y simulaciones que permitan mejorar la comprensión que se posee de una de las herramientas estadísticas más potentes de las últimas décadas, especialmente en problemas de regresión y clasificación, los Random Forests. Los algoritmos de Bosques Aleatorios surgen como la evolución natural de los modelos estadísticos de árboles individuales de decisión, entre los cuales se pueden destacar dos principalmente: CART y los Conditional Inference Trees. En base a estos dos modelos más simples es posible construir dichos Bosques a través de una técnica conocida como Bagging (Bootstrap Aggregating ), que permite mejorar la capacidad de los diversos algoritmos de Aprendizaje Automático, aumentando su estabilidad, reduciendo su varianza y previniendo el problema que supone el fenómeno del overfitting (sobreajuste) en casos en los que se manejan grandes cantidades de datos. Básicamente, el proceso consiste en tomar de manera aleatoria una cantidad determinada de variables con las cuales construir cada uno de los árboles individuales, realizándose con ellos una predicción concreta, que posteriormente será ponderada a través del cálculo de la media de cada uno de dichos árboles, para generar la predicción final del Random Forest. Si bien es cierto que este proceder se ha demostrado válido en numerosas aplicaciones y tiene gran cantidad de ventajas, el hecho de que en muchos aspectos se comporte como una caja negra a la que sencillamente se le introduce información y directamente aporte una solución al problema, hace que conocer en detalle sus capacidades y características constituya un problema considerablemente complejo. Para solventarlo, se realizarán una serie de simulaciones programadas que permitan facilitar la comprensión de la herramienta. Las pruebas que se irán realizando tendrán en cuenta diversos parámetros a modificar para posteriormente poder analizar la respuesta. En general, se generarán variables aleatorias de diferentes características y número de observaciones. Asimismo, dicho conjunto de variables en ocasiones se generará de tal manera que las mismas estén correlacionadas o sean totalmente independientes dependiendo del caso. Asimismo, también se observará el efecto que tiene la introducción de ruido en el sistema, pudiéndose observar la adaptación de Random Forests a modelos deterministas y no deterministas. Como es natural en cualquier problema de regresión, las variables dependientes son el resultado de una serie de relaciones matemáticas entre las variables independientes o regresores que, en general, no son conocidas a priori. Sin embargo, para facilitar la comprensión de los resultados obtenidos en los diversos experimentos, se emplearán dos modelos relativamente sencillos, que son además muy empleados en el caso de la regresión: El modelo lineal múltiple y el modelo lineal múltiple con interacciones de segundo orden entre las variables. El hecho de que en el segundo caso no se hayan incluido interacciones de orden tres o superior obedece al hecho de que rara vez en un proceso real se da dicha situación. Una de las grandes ventajas de los árboles de decisión es su gran capacidad para el manejo de enormes cantidades de datos y variables y aun así proporcionar buenos resultados, característica que se quería comprobar en este apartado. En este tipo de experimentos se modificará la cantidad de variables, y con el número de observaciones que se tiene de la misma. En general, se proporcionará poca información al sistema, de tal manera que la tarea de encontrar las relaciones entre las mismas resulte aún más complicado. El haber procedido de esta manera permite comprobar cómo incluso el ajuste de modelos lineales, falla a partir de cierto punto en el que le falta demasiada información para ajustar un modelo correcto. Sin embargo, se comprueba que Random Forest se mantiene robusto pese a que está claramente desfavorecido en este caso. Si bien está claro que los algoritmos realizados con árboles de decisión poseen una gran robustez a la hora de tratar con problemas en los que se posee poca información, al final todo modelo matemático está sujeto a este tipo de problema. La intención de dicho experimento era forzar hasta tal punto al sistema que incluso los modelos de árboles tuvieran complicaciones serias a la hora de abordarlos. Tras diversas simulaciones, en las cuales se analizó la variación del MAPE se llegó a encontrar una relación exponencial entre la necesidad de observaciones de las variables y la cantidad de las mismas, estando en todo momento dicha relación acotada por la bisectriz del primer cuadrante, es decir, se necesitan más observaciones, como es lógico. Para llegar a dichas conclusiones fue necesario analizar modelos de Random Forest que llegaron a estar construidos hasta con 3000 variables y observaciones (nueve millones de datos). El número de árboles que se incluyen en el Bosque Aleatorio es uno de los parámetros más discutidos en cuanto a la influencia que pueden tener en la precisión de las predicciones o la aparición de fenómenos como el sobreajuste. En principio la metodología del Bagging resulta muy eficaz en estos modelos a la hora de evitar el overfitting, de modo que en principio un aumento del tamaño del bosque únicamente debería redundar en un aumento del coste computacional del análisis y quizá en un aumento de la precisión. El parámetro conocido como mtry hace referencia a la cantidad de variables que se emplearán a la hora de analizar cómo conseguir la mayor mejora posible de un determinado parámetro, como puede ser la ganancia de información según se va ramificando el árbol. En general, es considerado uno de los parámetros que más influyen en la calidad del Random Forest que se ajuste a un modelo concreto, de forma que lo esperable es que haya una gran sensibilidad de la precisión de las predicciones ante variaciones de dicho parámetro. En los experimentos llevados a cabo en los cuales se varía el mtry, se analiza la respuesta que aportan los modelos a lo largo de todo el espacio de valores que puede tomar, tomando un mayor o menor paso de análisis en función de la cantidad de variables y de observaciones consideradas. Importancia de variables: Se trata de un concepto complicado de definir pero que pretende expresar la relevancia que tienen los diversos regresores en la respuesta. Existen diversos métodos de medición indirecta de la misma, de modo que en función del caso se intentará comprobar hasta qué punto los métodos implementados en los diversos algoritmos a analizar se acercan a la relevancia ponderada que se puede asignar a cada regresor dado que el modelo con el que se generan las repuestas es conocido a priori. Intervalos de confianza: Resulta una característica típica de la mayoría de documentos relativos al comportamiento de Random Forest el análisis de la calidad de las predicciones en función del error relativo, dejando de lado un aspecto fundamental del análisis estadístico en cualquier proceso de regresión o que implique problemas de predicción: la incertidumbre sobre la misma. Se denomina intervalo de confianza al número o dupla de número a partir del cual o entre los cuales es posible encontrar el parámetro estimado con una cierta probabilidad, de modo que se puede emplear como una medida de la incertidumbre. En el caso de Random Forest, dichos intervalos serán construidos mostrando dónde se sitúa la predicción del conjunto respecto de la totalidad de predicciones de cada árbol individual.

Más información

ID de Registro: 43167
Identificador DC: http://oa.upm.es/43167/
Identificador OAI: oai:oa.upm.es:43167
Depositado por: Biblioteca ETSI Industriales
Depositado el: 26 Sep 2016 12:38
Ultima Modificación: 26 Sep 2016 12:38
  • Open Access
  • Open Access
  • Sherpa-Romeo
    Compruebe si la revista anglosajona en la que ha publicado un artículo permite también su publicación en abierto.
  • Dulcinea
    Compruebe si la revista española en la que ha publicado un artículo permite también su publicación en abierto.
  • Recolecta
  • e-ciencia
  • Observatorio I+D+i UPM
  • OpenCourseWare UPM