Experimentos computacionales en un estudio de simulación de modelos de series temporales para una mejor comprensión de las herramientas Random Forest y Conditional Trees

Carbajo Mayoral, Iván (2016). Experimentos computacionales en un estudio de simulación de modelos de series temporales para una mejor comprensión de las herramientas Random Forest y Conditional Trees. Proyecto Fin de Carrera / Trabajo Fin de Grado, E.T.S.I. Industriales (UPM).

Descripción

Título: Experimentos computacionales en un estudio de simulación de modelos de series temporales para una mejor comprensión de las herramientas Random Forest y Conditional Trees
Autor/es:
  • Carbajo Mayoral, Iván
Director/es:
  • Mira McWilliams, Jose Manuel
  • Cara Cañas, Francisco Javier
Tipo de Documento: Proyecto Fin de Carrera/Grado
Grado: Grado en Ingeniería en Tecnologías Industriales
Fecha: Septiembre 2016
Materias:
Palabras Clave Informales: Aprendizaje automático, series temporales, random forest, CART, ARIMA, conditional inference trees, importancia de variables, bootstrap de los residuos
Escuela: E.T.S.I. Industriales (UPM)
Departamento: Ingeniería de Organización, Administración de Empresas y Estadística
Licencias Creative Commons: Reconocimiento - Sin obra derivada - No comercial

Texto completo

[img]
Vista Previa
PDF (Document Portable Format) - Se necesita un visor de ficheros PDF, como GSview, Xpdf o Adobe Acrobat Reader
Descargar (1MB) | Vista Previa

Resumen

A lo largo de este trabajo se estudiará la posibilidad de introducir los algoritmos de aprendizaje automático, conocidos como random forest en el campo de la predicción de series temporales. El objetivo no es sólo probar la eficacia de dichos algoritmos para la predicción puntual en regresión dinámica, sino también investigar su capacidad a la hora de determinar las propiedades de las series y su aplicabilidad a la hora de estimar intervalos de confianza para las predicciones. El desarrollo que ha vivido el campo del machine learning en los últimos años ha sido enorme. Los algoritmos que se engloban dentro del mismo han demostrado una gran habilidad en la resolución de gran variedad de problemas de muy diferente tipología gracias a su capacidad de adaptación a los mismos. El principal atractivo de estos modelos radica en su naturaleza flexible, ya que no son diseñados, en principio, para hallar la solución de un problema concreto, sino que se diseñan de tal manera que puedan aprender sobre la marcha en función de las características del problema. De hecho es frecuente referirse a estos como modelos no paramétricos, en el sentido de que no tienen una expresión cerrada que dependa de unos parámetros que deban ajustarse para la resolución de problemas concretos. Si bien es verdad que constan de ciertos parámetros de diseño que pueden modificarse, estos únicamente guían el proceso de aprendizaje del algoritmo, sin restringir su aplicabilidad a un problema concreto. Esta cualidad los capacita para resolver problemas sobre los que se carece de suficiente información o bien son tan cambiantes que los modelos rígidos no obtienen resultados aceptables. Por esta razón, la búsqueda de nuevos problemas que puedan ser abordados por estas técnicas está a la orden del día y promete estarlo durante mucho tiempo. Mientras en otros ámbitos de predicción ya es frecuente la utilización de dichas técnicas. La aplicación de los algoritmos de random forest, los cuales están basados en los algoritmos de árboles de decisión, a la predicción de series temporales, es una línea de investigación que se encuentra muy poco desarrollada. Por esa razón, en este trabajo se pretende llevar a cabo una serie de experimentos computacionales que arrojen luz acerca de la aplicabilidad de los algoritmos de bosques es esta área. El estudio se realizará sobre dos algoritmos diferentes: los bosques basados en árboles de decisión tipo CART (Classification and Regression Trees) y los bosques basados en los árboles de inferencia condicional (Conditional inference tres).El desarrollo del primero se debe a las investigaciones de Leo Breiman, el cual introdujo en 1984 el algoritmo CART, en los cuales se basó posteriormente la formulación de Random forest. El nacimiento del segundo es más reciente y se debió a la necesidad de afrontar problemas en los que las variables explicativas de los modelos eran muy diferentes o se encontraban muy correlacionadas. Este último aspecto será fundamental a lo largo de este trabajo, ya que por su propia naturaleza los elementos de una serie temporal tienen estas características. Ambos algoritmos se basan en la creación de un número elevado de árboles de decisión individuales cuya información es posteriormente agregada de varias maneras posibles. Puesto que se trata de un trabajo de investigación acerca de los modelos mencionados anteriormente, más allá de su aplicación concreta a un caso particular, interesa adquirir un conocimiento general acerca del funcionamiento y las posibilidades de estos algoritmos. Por ese motivo, el documento incluye un capítulo dedicado a la comprensión del funcionamiento de estos modelos. Se intentará estudiar el nivel de acierto a la hora de determinar el orden de las series utilizando modelos que no presuponen ninguna estructura particular de las mismas. Tras este apartado se comenzará la realización de los experimentos de predicción, que constituyen el cuerpo de este trabajo. El objetivo es estudiar la dependencia de los algoritmos random forest con ciertos parámetros de diseño. Dichos parámetros rigen la forma en que los algoritmos desarrollan su labor de predicción, siendo fundamental su ajuste para evitar ciertos problemas, principalmente el del sobreajuste. Como ocurre con todos los modelos, el objetivo no será que el modelo se ajuste muy bien a los datos disponibles, sino que será que el modelo sea capaz de predecir la respuesta correspondiente a valores de las variables explicativas para los cuales se carece de datos. Mediante la simulación de experimentos que cubran los valores más relevantes de los parámetros de los modelos será posible obtener información acerca de la influencia de los mismos sobre los resultados. Todos los resultados relativos a la predicción en función de estos parámetros se compararán con los resultados obtenidos con los modelos ARIMA, lo cual se hará en términos del MAPE (Mean absolute percentage error) correspondiente. De manera paralela al análisis de las predicciones se realizará un estudio de la importancia de las variables en las series temporales. Por último, se estudiará la posibilidad de estimar intervalos de confianza para las predicciones en uso, en este caso, únicamente de los random forest basados en CART. Este aspecto resulta de enorme utilidad ya que a menudo se hace necesario conocer no únicamente la predicción puntual de una serie, sino el rango de valores probable de la misma. Existen múltiples situaciones de la vida real, como puede ocurrir en las previsiones de demanda de bienes de todo tipo, en que la situación requiere estar preparado para hacer frente a picos que pueden estar muy alejados de la media. Por ese motivo se ha decidido incluir esta sección en la que se presenta un método novedoso para el cálculo de los intervalos. Se empleará la técnica del bootstrap para obtener anchuras de los intervalos fieles a la realidad. Sin embargo, al trabajar con series temporales, será necesario recurrir a un caso particular de este método: el bootstrap de los residuos. El cual permite desestimar la estructura propia de la serie para centrarse en el análisis de la variabilidad de la misma. Se comparará a su vez este método con otros bootstraps realizados sobre las predicciones, tanto agregadas como individuales(de cada árbol),para comprobar su eficacia. Todo lo anterior permitirá adquirir un conocimiento más o menos amplio de las posibles aplicaciones de los algoritmos de random forest a problemas de muy diversa índole. Además abrirá nuevas posibles líneas de investigación que todavía no han sido exploradas debido a la relativa novedad de estos modelos.

Más información

ID de Registro: 43488
Identificador DC: http://oa.upm.es/43488/
Identificador OAI: oai:oa.upm.es:43488
Depositado por: Biblioteca ETSI Industriales
Depositado el: 10 Oct 2016 15:06
Ultima Modificación: 10 Oct 2016 15:06
  • Open Access
  • Open Access
  • Sherpa-Romeo
    Compruebe si la revista anglosajona en la que ha publicado un artículo permite también su publicación en abierto.
  • Dulcinea
    Compruebe si la revista española en la que ha publicado un artículo permite también su publicación en abierto.
  • Recolecta
  • e-ciencia
  • Observatorio I+D+i UPM
  • OpenCourseWare UPM