Estudio de simulación estocástica para el análisis de las propiedades de los estimadores Random Forests frente a árboles individuales

Leoca, Doru George (2017). Estudio de simulación estocástica para el análisis de las propiedades de los estimadores Random Forests frente a árboles individuales. Proyecto Fin de Carrera / Trabajo Fin de Grado, E.T.S.I. Industriales (UPM).

Description

Title: Estudio de simulación estocástica para el análisis de las propiedades de los estimadores Random Forests frente a árboles individuales
Author/s:
  • Leoca, Doru George
Contributor/s:
  • Mira McWilliams, José Manuel
Item Type: Final Project
Degree: Grado en Ingeniería en Tecnologías Industriales
Date: 2017
Subjects:
Freetext Keywords: Aprendizaje automático, árboles de decisión, Conditional Inference Trees, Random Forest, Bagging, error cuadrático medio
Faculty: E.T.S.I. Industriales (UPM)
Department: Ingeniería de Organización, Administración de Empresas y Estadística
Creative Commons Licenses: Recognition - No derivative works - Non commercial

Full text

[img]
Preview
PDF - Requires a PDF viewer, such as GSview, Xpdf or Adobe Acrobat Reader
Download (1MB) | Preview

Abstract

El objetivo fundamental del presente Trabajo de Fin de Grado es el diseño y la realización de experimentos de simulación estocástica que permitan profundizar en la comprensión que se tiene de una herramienta estadística ampliamente utilizada en problemas de clasificación y regresión: Random Forests. Se analizará la influencia que tienen sus parámetros fundamentales en su eficacia y se les comparará con otro tipo de árboles, los Conditional Inference Trees. Descripción de CART y CIF: Un árbol de clasificación es un árbol de decisión cuya variable respuesta puede tomar un conjunto finito de valores y que predicen la clase a la que pertenecen los datos analizados. A diferencia de estos, la variable respuesta de los árboles de regresión puede tomar valores continuos y el resultado de la predicción es un número real. Los árboles de inferencia condicional son árboles individuales al igual que los CART, pero se diferencian de estos en que no seleccionan para el split la variable que maximiza el valor de un indicador (como por ejemplo el coeficiente Gini), sino que llevan a cabo varias pruebas de contraste al poner en marcha el algoritmo para comprobar la importancia de cada una de las variables explicativas. Con los CIF se consigue evitar el overfitting y la tendencia a seleccionar las variables que presentan un mayor número de divisiones posibles que se da en los CART cuando las variables toman rangos de valores muy diferentes o tienen distinto número de niveles. Descripción de Random Forests: La evolución natural de los árboles de decisión individuales son los bosques aleatorios, o Random Forests. Consisten en construir bosques de árboles individuales y aplicarles la técnica conocida como Bootstrap Aggregating o Bagging con el objetivo de disminuir la varianza y el sesgo de las predicciones y prevenir el sobreajuste en los casos en los que se trabaja con grandes cantidades de datos. La manera en la que se construyen los bosques aleatorios es la siguiente: en cada nodo del árbol el algoritmo toma de manera totalmente aleatoria una cantidad determinada de variables explicativas y construye el árbol hasta un determinado punto. Una vez que se tienen todos los árboles del bosque se hace la media de todos ellos y esta será la predicción final del Random Forests. La utilidad y la fiabilidad de esta herramienta ha quedado demostrado en numerosas aplicaciones, pero el hecho de que muchas veces funcione como una caja negra a la que se le introduce información y se obtiene directamente una solución al problema en cuestión no ayuda a conocer los detalles de su funcionamiento e impide sacar reglas que puedan predecir su funcionamiento. Es por ello que se lleva a cabo este proyecto de investigación que consiste en realizar diferentes simulaciones que previsiblemente profundizarán en la comprensión del algoritmo. La dificultad del problema a resolver por el modelo no radica no sólo en un gran número de variables que se deban analizar, o en un set de datos del que falte información, sino en el uso de una función mucho más compleja que un sencillo modelo lineal y en la introducción de una cantidad nada despreciable de ruido. A lo largo del proyecto se efectuaron experimentos para determinar la influencia de los distintos parámetros de calibración de Random Forests en la fiabilidad de sus predicciones: la cantidad de variables que se consideran al hacer la división en cada nodo, el número de árboles que constituyen cada bosque y la profundidad de cada árbol. El modelo: A lo largo del proyecto se han llevado a cabo numerosas simulaciones de prueba que sirvieron como aprendizaje para la creación del experimento que finalmente se ha usado para obtener los resultados expuestos en este documento. Se ha experimentado con funciones distintas a la finalmente utilizada y con diferentes rangos de valores para las variables explicativas.

More information

Item ID: 45805
DC Identifier: http://oa.upm.es/45805/
OAI Identifier: oai:oa.upm.es:45805
Deposited by: Biblioteca ETSI Industriales
Deposited on: 10 May 2017 05:58
Last Modified: 10 May 2017 05:58
  • Logo InvestigaM (UPM)
  • Logo GEOUP4
  • Logo Open Access
  • Open Access
  • Logo Sherpa/Romeo
    Check whether the anglo-saxon journal in which you have published an article allows you to also publish it under open access.
  • Logo Dulcinea
    Check whether the spanish journal in which you have published an article allows you to also publish it under open access.
  • Logo de Recolecta
  • Logo del Observatorio I+D+i UPM
  • Logo de OpenCourseWare UPM