Predicción semanal de precios de la energía eléctrica utilizando bosques aleatorios

Martín Bueno, Blanca (2017). Predicción semanal de precios de la energía eléctrica utilizando bosques aleatorios. Proyecto Fin de Carrera / Trabajo Fin de Grado, E.T.S.I. Industriales (UPM).

Description

Title: Predicción semanal de precios de la energía eléctrica utilizando bosques aleatorios
Author/s:
  • Martín Bueno, Blanca
Contributor/s:
Item Type: Final Project
Degree: Grado en Ingeniería en Tecnologías Industriales
Date: July 2017
Subjects:
Freetext Keywords: Minería de datos, árboles de regresión, arboles de clasificación, árboles dinámicos, Classification and Regression Trees, Conditional Inference Trees, Random Forest, parámetros de tuning, MAPE
Faculty: E.T.S.I. Industriales (UPM)
Department: Ingeniería de Organización, Administración de Empresas y Estadística
Creative Commons Licenses: Recognition - No derivative works - Non commercial

Full text

[thumbnail of TFG_BLANCA_MARTIN_BUENO.pdf]
Preview
PDF - Requires a PDF viewer, such as GSview, Xpdf or Adobe Acrobat Reader
Download (3MB) | Preview

Abstract

El Trabajo de Fin de Grado que se presenta a continuación tiene como objetivo predecir el precio de la electricidad en el mercado mayorista español en 2016 a una semana vista. Las novedades que en él se introducen radican en el horizonte temporal para el que se realizan las predicciones, en el conjunto de datos de entrenamiento dinámico y en la extensa comparación entre combinaciones de modelos predictivos y las bases de datos utilizadas.
Este mercado resulta uno de los más complejos de predecir a nivel europeo y la fijación de precios a través de la que funciona se establece de la siguiente manera: inicialmente entran a competir aquellas tecnologías que sean capaces de ofrecer energía eléctrica a precio nulo o muy cercano a cero, y a continuación, en orden de precio creciente, se van introduciendo el resto de tecnologías hasta casar la oferta con la demanda. Esto es debido a que la electricidad no es un bien almacenable, de manera que el precio final queda marcado por la última tecnología en penetrar en el mercado.
Las tecnologías más competitivas, es decir, que pueden ofertar mejores precios, son las de tipo nuclear e hidráulico, por tener su inversión prácticamente amortizada, y las renovables, puesto que no incurren en gastos de combustible. Una gran actividad de este tipo de centrales implica una disminución del precio de la electricidad y, por tanto, un valle en el esquema de su comportamiento.
Por el contrario, ante la ausencia prácticamente total de centrales de fuel en España, las centrales de gas y carbón son las últimas en entrar en el mercado diario e implican un aumento significativo en el precio de la electricidad, por el alto coste que conlleva la obtención de energía con estos métodos. Como consecuencia, aparecen picos o spikes en la pauta que sigue el precio de la electricidad a lo largo del tiempo.
Con el objetivo de obtener una mayor posibilidad de extrapolación, se ha seleccionado la tercera semana de cada mes de 2016, debido a que es la que mejor representa el comportamiento global de dicho periodo. Adicionalmente, puesto que estudios anteriores apuntaban a un distinto comportamiento de días laborables, fines de semana y festivos, se han creado modelos distintos para la predicción de días totales, laborables y por ultimo fines de semana y festivos conjuntamente.
Para lograrlo se ha trabajado con tres tipos de modelos de árboles muy útiles en el campo de la predicción con minería de datos: Classification and Regression Trees (CART), Conditional Inference Trees (CI) y Random Forest (RF). Son herramientas estadísticas no paramétricas basadas en una serie de particiones espaciales que permiten llegar a un valor de la variable respuesta en función de los tomados por aquellas otras variables de las que depende. Los dos primeros son arboles aislados mientras que el tercero se compone de un conjunto de árboles dinámicos.
Los modelos tipo CART se basan en un algoritmo desarrollado hace más de 30 años a través del cual, para generar un árbol, se elige aquella partición univariante que produzca los nodos de mayor pureza que maximiza el criterio de partición. Mientras que su análisis resulta sencillo y su tiempo de ejecución es relativamente bajo, su estabilidad es igualmente baja cuando es necesario podar el árbol y limitar su crecimiento marcando el error máximo asumible. Además, su mayor problema radica en el sesgo.
Teniendo en mente este problema de sesgo, nacen los arboles CI, con aplicaciones similares a CART, pero con mayor estabilidad, puesto que no es necesario podarlos. De esta manera, se genera una hipótesis nula de independencia entre la variable respuesta Y y cada una de las variables de las que esta depende Xi. Si existe una o varias variables que resultan ser dependientes de Y, se realiza un corte. Por otro lado, si la hipótesis nula no puede ser rechazada para ninguna Xi se detiene el crecimiento del árbol. Su principal parámetro de tuning (ajuste del modelo) es la máxima profundidad a la que se permite llegar al árbol antes de que el programa lo detenga. Un aumento conlleva un incremento del tiempo de ejecución, pero no proporciona necesariamente resultados más válidos.
En el caso de Random Forest, se trabaja con un conjunto de árboles creados a partir de idénticos datos en los que las particiones tienen una componente aleatoria. Su configuración se realiza a través de los parámetros de tuning: número de árboles y número de variables contempladas en cada bifurcación. Cabe destacar que un aumento de estas cantidades no tiene porqué implicar predicciones más exactas y que existe un punto de inflexión a partir del cual no se produce mejora alguna. Se ha seleccionado la combinación que ha derivado en el menor Mean Square Residual (MSR).
De entre los tres modelos, Random Forest es el que mayor estabilidad posee por estar formado por varios árboles y no ser necesario podarlos. Con él, la obtención de la importancia de las variables es sencilla pero su tiempo de ejecución es ligeramente mayor.
A pesar de contemplar a priori el tiempo de ejecución como un factor limitante, para el volumen de datos con el que se trabaja en este proyecto (más de 20 variables con más de 10 000 observaciones), no resulta ser significativo ni relevante a la hora de decantarse por un método de predicción u otro.
El comportamiento de todos estos modelos se ve claramente influenciado por la base de datos de la que se alimentan. Para este proyecto se han creado tres bases de datos diferenciadas (días totales, días laborables y fines de semana y festivos) que contienen tanto los valores de las variables explicativas utilizadas para predecir, como los valores de la variable respuesta (precio horario) que se utilizan para comprobar la veracidad de las predicciones.
Con ellas se crea el conjunto de datos de entrenamiento o traindata que se emplea para realizar las bifurcaciones que determinan la estructura del árbol o del bosque. El traindata con el que se ha trabajado es dinámico, está compuesto por los 90 días anteriores al primero a predecir y va avanzando a medida que va progresando la predicción a lo largo de los meses.
La primera valoración de las predicciones que se ha realizado ha sido puramente numérica a través del Mean Absolute Percentage Error o Error Porcentual Absoluto Medio (MAPE), con el que los tres modelos de árboles parecen métodos adecuados para predecir del precio de la electricidad en cada una de las 5 combinaciones. Sin embargo, al observar las predicciones individualmente, CI resulta de ínfima utilidad para detectar picos y valles, especialmente en días festivos y CART detecta con dificultad el detalle del patrón real. Por tanto, se puede afirmar que un MAPE bajo es necesario, pero no suficiente para garantizar la calidad de una predicción y puede dar una falsa sensación de validez.
CART ha sido el método más adecuado para detectar el valor del precio en los spikes, pero no se ajusta convenientemente al instante en el que se producen. Adicionalmente, cuando se presentan ciertos picos y valles de magnitud media en un corto periodo de tiempo, tiende a representarlos como una única meseta.
Random Forest es el método que mejor refleja el comportamiento real de los precios. Su MAPE es aceptablemente pequeño, pero debe prestarse atención a la sobrestimación de la variable respuesta en la hora 10, en la que se produce generalmente un spike.
Si no se hace diferenciación entre días laborables, fines de semana y festivos, Random Forest arroja los mejores resultados, especialmente en los meses en los que la demanda es más previsible y existe menor variación de precios, es decir, julio, agosto, noviembre y diciembre.
Para la predicción de días laborables y del conjunto de sábados, domingos y festivos, Random Forest también proporciona la mejor captación de la tendencia, por lo que el análisis de la influencia de la base de datos se centra en este modelo de bosques aleatorios.
Atendiendo al criterio del MAPE, la mejor predicción para la mitad de los meses del año se obtiene con la base de datos que contiene el conjunto de días totales, mientras que, para los otros meses restantes, se obtiene con la base de datos en la que solo se reflejan los valores relativos a días laborables. No obstante, el empleo de una base de datos del segundo tipo mantiene la exactitud de la predicción del patrón y se acerca más en valor al precio real.
Nuevamente, el MAPE para la comparación entre bases de datos aplicadas a la predicción de fines de semana y días festivos no resulta útil. El principal problema de utilizar un traindata con el total de los días es un falso pico que se produce en la hora 1 del domingo para los meses contenidos entre febrero y junio de 2016. Una opción es considerar este valor en concreto no válido y rechazarlo, mientras que la otra opción consiste en trabajar con una base de datos que solo contenga el tipo de datos a predecir, sabiendo que la tendencia es detectada correctamente y los valores están sobreestimados un 10%.
Destacar también que los meses de mayo y febrero son los que se predicen con mayor dificultad debido, en el primer caso, a la imprevisibilidad de las condiciones climatológicas (no contempladas en el alcance de este proyecto) y los festivos dependientes del año, y a la duración anormal de febrero en el segundo caso. Además, 2016 resultó ser un año bisiesto.
Del mismo modo, también queda fuera de alcance la compra y venta de energía llevada a cabo entre España y países vecinos.
Como líneas futuras se plantea aumentar el horizonte temporal de las predicciones manteniendo asumible el error, estudiar otros traindata de distinta dimensión y combinar los resultados de los distintos modelos de árboles introduciendo el precio medio semanal, muy bien captado por CART, como una nueva variable en un modelo de Random Forest.

More information

Item ID: 47648
DC Identifier: https://oa.upm.es/47648/
OAI Identifier: oai:oa.upm.es:47648
Deposited by: Biblioteca ETSI Industriales
Deposited on: 05 Sep 2017 06:26
Last Modified: 14 May 2018 12:15
  • Logo InvestigaM (UPM)
  • Logo GEOUP4
  • Logo Open Access
  • Open Access
  • Logo Sherpa/Romeo
    Check whether the anglo-saxon journal in which you have published an article allows you to also publish it under open access.
  • Logo Dulcinea
    Check whether the spanish journal in which you have published an article allows you to also publish it under open access.
  • Logo de Recolecta
  • Logo del Observatorio I+D+i UPM
  • Logo de OpenCourseWare UPM