Estudio de simulación estocástica para el análisis de las propiedades de los estimadores Random Forests frente a árboles individuales

Leoca, Doru George (2017). Estudio de simulación estocástica para el análisis de las propiedades de los estimadores Random Forests frente a árboles individuales. Proyecto Fin de Carrera / Trabajo Fin de Grado, E.T.S.I. Industriales (UPM).

Descripción

Título: Estudio de simulación estocástica para el análisis de las propiedades de los estimadores Random Forests frente a árboles individuales
Autor/es:
  • Leoca, Doru George
Director/es:
  • Mira McWilliams, José Manuel
Tipo de Documento: Proyecto Fin de Carrera/Grado
Grado: Grado en Ingeniería en Tecnologías Industriales
Fecha: 2017
Materias:
Palabras Clave Informales: Aprendizaje automático, árboles de decisión, Conditional Inference Trees, Random Forest, Bagging, error cuadrático medio
Escuela: E.T.S.I. Industriales (UPM)
Departamento: Ingeniería de Organización, Administración de Empresas y Estadística
Licencias Creative Commons: Reconocimiento - Sin obra derivada - No comercial

Texto completo

[img]
Vista Previa
PDF (Document Portable Format) - Se necesita un visor de ficheros PDF, como GSview, Xpdf o Adobe Acrobat Reader
Descargar (1MB) | Vista Previa

Resumen

El objetivo fundamental del presente Trabajo de Fin de Grado es el diseño y la realización de experimentos de simulación estocástica que permitan profundizar en la comprensión que se tiene de una herramienta estadística ampliamente utilizada en problemas de clasificación y regresión: Random Forests. Se analizará la influencia que tienen sus parámetros fundamentales en su eficacia y se les comparará con otro tipo de árboles, los Conditional Inference Trees. Descripción de CART y CIF: Un árbol de clasificación es un árbol de decisión cuya variable respuesta puede tomar un conjunto finito de valores y que predicen la clase a la que pertenecen los datos analizados. A diferencia de estos, la variable respuesta de los árboles de regresión puede tomar valores continuos y el resultado de la predicción es un número real. Los árboles de inferencia condicional son árboles individuales al igual que los CART, pero se diferencian de estos en que no seleccionan para el split la variable que maximiza el valor de un indicador (como por ejemplo el coeficiente Gini), sino que llevan a cabo varias pruebas de contraste al poner en marcha el algoritmo para comprobar la importancia de cada una de las variables explicativas. Con los CIF se consigue evitar el overfitting y la tendencia a seleccionar las variables que presentan un mayor número de divisiones posibles que se da en los CART cuando las variables toman rangos de valores muy diferentes o tienen distinto número de niveles. Descripción de Random Forests: La evolución natural de los árboles de decisión individuales son los bosques aleatorios, o Random Forests. Consisten en construir bosques de árboles individuales y aplicarles la técnica conocida como Bootstrap Aggregating o Bagging con el objetivo de disminuir la varianza y el sesgo de las predicciones y prevenir el sobreajuste en los casos en los que se trabaja con grandes cantidades de datos. La manera en la que se construyen los bosques aleatorios es la siguiente: en cada nodo del árbol el algoritmo toma de manera totalmente aleatoria una cantidad determinada de variables explicativas y construye el árbol hasta un determinado punto. Una vez que se tienen todos los árboles del bosque se hace la media de todos ellos y esta será la predicción final del Random Forests. La utilidad y la fiabilidad de esta herramienta ha quedado demostrado en numerosas aplicaciones, pero el hecho de que muchas veces funcione como una caja negra a la que se le introduce información y se obtiene directamente una solución al problema en cuestión no ayuda a conocer los detalles de su funcionamiento e impide sacar reglas que puedan predecir su funcionamiento. Es por ello que se lleva a cabo este proyecto de investigación que consiste en realizar diferentes simulaciones que previsiblemente profundizarán en la comprensión del algoritmo. La dificultad del problema a resolver por el modelo no radica no sólo en un gran número de variables que se deban analizar, o en un set de datos del que falte información, sino en el uso de una función mucho más compleja que un sencillo modelo lineal y en la introducción de una cantidad nada despreciable de ruido. A lo largo del proyecto se efectuaron experimentos para determinar la influencia de los distintos parámetros de calibración de Random Forests en la fiabilidad de sus predicciones: la cantidad de variables que se consideran al hacer la división en cada nodo, el número de árboles que constituyen cada bosque y la profundidad de cada árbol. El modelo: A lo largo del proyecto se han llevado a cabo numerosas simulaciones de prueba que sirvieron como aprendizaje para la creación del experimento que finalmente se ha usado para obtener los resultados expuestos en este documento. Se ha experimentado con funciones distintas a la finalmente utilizada y con diferentes rangos de valores para las variables explicativas.

Más información

ID de Registro: 45805
Identificador DC: http://oa.upm.es/45805/
Identificador OAI: oai:oa.upm.es:45805
Depositado por: Biblioteca ETSI Industriales
Depositado el: 10 May 2017 05:58
Ultima Modificación: 10 May 2017 05:58
  • Open Access
  • Open Access
  • Sherpa-Romeo
    Compruebe si la revista anglosajona en la que ha publicado un artículo permite también su publicación en abierto.
  • Dulcinea
    Compruebe si la revista española en la que ha publicado un artículo permite también su publicación en abierto.
  • Recolecta
  • e-ciencia
  • Observatorio I+D+i UPM
  • OpenCourseWare UPM