Aplicación de modelos de Redes Neuronales Recurrentes a la predicción de emisiones contaminantes de autobuses urbanos

Martín Gutiérrez, Estrella (2019). Aplicación de modelos de Redes Neuronales Recurrentes a la predicción de emisiones contaminantes de autobuses urbanos. Thesis (Master thesis), E.T.S.I. Industriales (UPM).

Description

Title: Aplicación de modelos de Redes Neuronales Recurrentes a la predicción de emisiones contaminantes de autobuses urbanos
Author/s:
  • Martín Gutiérrez, Estrella
Contributor/s:
  • Mira McWilliams, José Manuel
Item Type: Thesis (Master thesis)
Masters title: Ingeniería Industrial
Date: September 2019
Subjects:
Freetext Keywords: Minería de datos, Data Mining, Aprendizaje automático, Machine Learning, Redes Neuronales, Deep Learning, Redes Neuronales Recurrentes, Recurrent Neural Networks, emisión de contaminantes,,1203 Ciencia de los ordenadores,120304 Inteligencia Artificial,120323 Lenguajes de programación,1209 Estadística,120903 Análisis de datos,120914 Técnicas de predicción estadística,120915 Series Temporales,
Faculty: E.T.S.I. Industriales (UPM)
Department: Inteligencia Artificial
Creative Commons Licenses: Recognition - No derivative works - Non commercial

Full text

[img]
Preview
PDF - Requires a PDF viewer, such as GSview, Xpdf or Adobe Acrobat Reader
Download (2MB) | Preview

Abstract

Introducción La contaminación del aire es un problema global, con impactos a largo plazo medioambientales, económicos y sociales, y por ello la reducción de emisiones contaminantes a la atmósfera es una cuestión de máximo interés. Uno de los efectos más importantes de la contaminación, a nivel planetario, es el aumento de las temperaturas debido al incremento de la concentración de gases de efecto invernadero (GEI) en la atmósfera terrestre, cuyo principal responsable es el dióxido de carbono, que procede fundamentalmente de procesos de quema de combustibles fósiles, siendo el sector del transporte terrestre uno de los mayores contribuyentes. Existen numerosas alternativas para contribuir a la reducción de los GEI. A nivel local, en concreto en la ciudad de Madrid, entre otras medidas, existen varias líneas de investigación en torno a la materia de emisiones contaminantes en vehículos, con diferentes enfoques y alcances. Una de estas investigaciones es el proyecto Cíclope, desarrollado por el Instituto de Investigación del Automóvil (INSIA) y por profesores de la ETSII que comienza en 2016. Este proyecto tiene como objetivo el desarrollo de un sistema experto capaz de generar patrones de comportamiento de las emisiones en función de variables cinemáticas y de las condiciones ambientales, para poder ajustar la conducción en función de esas variables. Para desarrollar el proyecto se cuenta también con la colaboración de la (Empresa Municipal de Transportes) EMT, que ha puesto a disposición los vehículos, el equipamiento y conductores, para realizar los ensayos. Para lograr dichos objetivos se plantea un programa de investigación teórico – experimental, que se basa en el estudio y análisis de las emisiones a nivel microscópico e instantáneo. El trabajo que se presenta en este documento puede enmarcarse dentro de este proyecto, y en particular, se van a aplicar técnicas estadísticas avanzadas a la predicción de emisiones de CO2. Para el modelado de esos patrones se cuenta con una base de datos de ensayos realizados en autobuses urbanos en distintas líneas y tramos, con distintos niveles de carga, y en distintas épocas del año. Tras agrupar todas las observaciones de los ensayos de interés, retener las variables seleccionadas y añadir otras nuevas se obtiene una hoja de trabajo de partida de 73.852 observaciones y 8 variables, por lo que en total se tienen 590.816 recopilaciones de datos. Para procesar ese gran volumen de datos la herramienta utilizada en el estudio ha sido el programa R. En base a trabajos previos, la predicción de las emisiones ha demostrado ser un problema complejo, y se están buscando nuevas líneas de investigación con las que mejorar los errores obtenidos, que hasta ahora han tomado valores bastante altos [21, 24]. En este proyecto se va a construir un modelo que trate de mejorar las predicciones de las emisiones de CO2 con un nuevo enfoque, utilizando redes neuronales recurrentes, que no han sido aplicadas hasta ahora en este problema, e introduciendo en el sistema la variables de retardo de la salida, además de las variables explicativas cinemáticas y ambientales, por lo que el modelo incluye variables de distinta naturaleza. Por tanto, este trabajo se centra en la predicción de una variable salida en función de ciertas variables de entrada, que se va a tratar de resolver con técnicas de Deep Learning, y por el gran volumen de datos utilizado se clasifica dentro del ámbito de minería de datos (data mining). Técnicas empleadas Las técnicas empleadas se basan en algoritmos de Deep Learning, que son modelos particulares del ámbito de Machine Learning, en los cuales el aprendizaje se realiza a través de una sucesión de capas, alcanzando conceptos complejos mediante la extracción y concatenación de conceptos simples. Estas capas se componen de unidades que procesan los datos, llamadas neuronas o nodos, por eso los modelos de Deep Learning suelen conocerse como redes neuronales. Como todos los modelos de Machine Learning, las redes neuronales son sistemas que se entrenan y mejoran su desempeño con los datos, es decir, adquieren conocimiento propio a través de la extracción de patrones de una base de datos, aprendiendo con la experiencia, para realizar una tarea cada vez con más eficacia. Estas redes tienen una estructura en la que se distinguen tres tipos de capas diferentes: la capa de entrada, las capas ocultas y la capa de salida. El número de nodos en la capa de entrada corresponde con el número de variables de explicativas, y el número de nodos de salida es el mismo que el número de variables de salida, por lo que en problemas univariantes el número de neuronas de salida siempre es uno. Entre las capas de entrada y salida se encuentran las capas ocultas. El número de capas ocultas y el número de neuronas ocultas en cada capa es uno de los parámetros a ajustar en el modelo. Esta combinación de neuronas en las capas ocultas de forma flexible permite encontrar complejas relaciones entre las entradas y salidas. Todas las neuronas de una capa están conectadas con todas las neuronas de la capa anterior y con todas las neuronas de la capa siguiente. De forma que, en la primera capa se transforma directamente la información de las variables de entrada, y en cada una de las neuronas de las capas siguientes se ejecuta la información ponderada de la capa anterior, hasta llegar a la salida. En cada neurona se transforma la información: se realiza una suma ponderada de las salidas de las neuronas de la capa anterior y a dicha suma se le aplica una función, llamada función de activación. Este mecanismo se repite hasta la última capa, y la salida de la última neurona es la salida de la red. Cada una de las conexiones de la red tiene asociado un peso, y dichos pesos determinan el valor de la salida, siendo los parámetros que el modelo optimiza automáticamente cuando se entrena con datos, con el objetivo de minimizar una función de pérdida. El procedimiento de aprendizaje comienza cuando los valores de las variables de entrada X pasan a través de las capas, donde son transformados hasta obtener unos valores de salida que son las predicciones del modelo Y’. Estas predicciones se comparan con los valores reales Y, obteniéndose una función de pérdida, que mediante un algoritmo de optimización evalúa cómo deben actualizarse todos los pesos de la red para que dicha función de pérdida disminuya. Por tanto, un modelo de redes neuronales se caracteriza por la arquitectura de la red, la función de activación de las neuronas, la función de pérdida y el método de aprendizaje. La función de pérdida debe ser diferenciable y no negativa, de forma que se pueda evaluar la contribución de cada peso a esa función. Los algoritmos para entrenar el modelo consisten en ajustar los pesos de forma iterativa hasta que el error entre la salida y el valor objetivo descienda por debajo de un límite. El más extendido es el algoritmo de backpropagation, basado en el descenso del gradiente (Stochastic Gradient Descent SGD) propagando la función del error desde la salida hasta las entradas. Así, calculando el gradiente de la pérdida respecto a todos los coeficientes, se pueden actualizar los pesos gradualmente en dirección contraria la gradiente, y por lo tanto disminuyendo la pérdida. Para calcular esos gradientes se aplica la regla de la cadena desde la última capa hasta la inicial, teniendo en cuenta las conexiones de las neuronas. El modelo final se obtiene tras varias iteraciones de predicción – actualización, ya que la primera iteración siempre tendrá un error muy elevado. Las redes neuronales recurrentes (RNN) tienen todas las características y el mismo funcionamiento de las redes neuronales sencillas, con la adición de entradas que reflejan el estado de la iteración anterior. Son un tipo de redes cuyas conexiones forman un círculo cerrado con un bucle donde la señal es reenviada de nuevo a la red, es decir, las propias salidas de la red se convierten en entradas de instantes posteriores. Esta característica las dota de memoria y las hace adecuadas para la modelización de series temporales. La capa que contiene las unidades de retardo también se llama capa de contexto. Existen varios algoritmos, donde dicha capa puede estar alimentada de las unidades ocultas o de la salida, y al igual que el resto de capas cada neurona de esta capa está conectada con todas las neuronas de la capa anterior y posterior. Igual que en las redes neuronales tradicionales las conexiones en esta capa se realizan mediante pesos. En este caso la actualización de los pesos se hace según el criterio del descenso del gradiente, mediante una extensión del algoritmo de backpropagation, conocido como Backpropagation Through Time (BPTT) o propagación hacia atrás a través del tiempo, en el que la regla de la cadena se aplica en dos dimensiones: la dimensión temporal y no temporal. Las ventajas de los modelos de regresión mediante RNN, que hacen adecuada la aplicación de éstos a la predicción de emisiones contaminantes en autobuses urbanos son: - Capacidad de capturar patrones temporales no lineales, no estacionarios y dinámicos [15] - Capacidad de trabajar simultáneamente con variables de distinta naturaleza: categóricas y numéricas; temporales y no temporales. - No existe la necesidad de realizar un modelado explícito previo, ya que las redes buscan automáticamente mediante la información de los datos las relaciones que mejor se ajustan a ellos. - Capacidad de trabajar con un número elevado de observaciones. Conclusiones A lo largo del trabajo se ha explicado la construcción y manipulación de la base de datos de trabajo, se han llevado a cabo todos los pasos necesarios para construir el modelo de redes neuronales recurrentes y finalmente se han realizado las predicciones de las emisiones y la estimación y análisis del error real conseguido. Minimizar el error de estas predicciones ha sido el objetivo de todo el proyecto. En el proceso de análisis orientado a determinar qué factores tienen influencia positiva en las predicciones, se ha concluido que: - Introducir un número alto de retardos temporales de la salida en el modelo de RNN no favorece al error: los resultados son mejores introduciendo pocos retardos pero con correlaciones altas con la variable salida. Los modelos con más de 4 retardos incrementaban significativamente los errores, presentaban mala convergencia de la función de pérdida del algoritmo, y hacían las redes más complejas aumentando los tiempos de computación. El mejor modelo con es el que incluye 3 retardos de la variable respuesta. - Introducir las tres variables cinemáticas (velocidad, aceleración y sobreaceleración) mejora el error respecto a los modelos que no las incluyen. Además, introducir un desfase de 4s en estas variables disminuye aún más los errores. - De todas las combinaciones posibles de modelos con variables ambientales (temperatura, presión y humedad), el modelo que proporciona los mejores resultados es el que incluye únicamente la temperatura y la humedad. - La variable carga, que ha sido introducida como única variable categórica tras agrupar los datos, permite trabajar con más eficacia y eficiencia por varias razones: mantiene la distinción entre distintos niveles de carga a pesar de estar los datos mezclados, permite construir un único modelo para todos los datos en lugar de plantear la construcción de un modelo para cada carga con la consecuente reducción de tiempo y esfuerzo, y ha demostrado que al ser introducida en la red disminuye los errores de predicción y ser una variable de importancia. - Tras todos los análisis de las variables explicativas del modelo se ha llegado a la conclusión de que la RNN que es capaz de ajustarse y predecir mejor los datos es la red Elman construida con 3 retardos de la salida, 3 variables cinemáticas (velocidad, aceleración y sobreaceleración) con un desfase de 4s, 2 variables ambientales (temperatura y humedad) y la variable carga. - Tras probar varias arquitecturas, comenzando por los modelos más sencillos, la mejor combinación para este problema con estas variables es: 1 capa oculta con 9 neuronas ocultas en dicha capa. Arquitecturas más grandes empeoraban mucho los tiempos y no ofrecían mejores resultados. - En el estudio de las variables de importancia, según el método de permutación de variables, destacan muy por encima de las demás: retardo 1, retardo 2, aceleración y velocidad. Las restantes variables son también de importancia pero en menor medida: retardo 3, sobreaceleración, temperatura, humedad y carga. - En el estudio de la agrupación de varias RNN como la definida, se ha obtenido que el mejor número de RNN agrupadas es 5. - Además, se han observado dos problemas recurrentes en todos los experimentos: existe cierta variabilidad de resultados de unas ejecuciones a otras para el mismo modelo, y los datos atípicos tienen un efecto perjudicial en la robustez de los modelos y la media de los errores. En base a estos resultados se han diseñando dos modelos que minimizan los errores de predicción. Los dos modelos están construidos con el mismo tipo y diseño de red neuronal, la diferencia es que uno de ellos se compone de una sola red, y el otro está formado por cinco redes. En el modelo con cinco redes las predicciones se realizan como la media de cada una de las predicciones de las redes individuales. De las predicciones finales, la estimación del error real y el análisis de la distribución del error relativo (MAPE), se puede concluir: - Estudiar la distribución del MAPE es de máxima importancia para entender los resultados de las predicciones para este problema, ya que la media de este error está alrededor del 0,6, un valor bastante alto (aunque dentro de lo esperable por la complejidad de la serie). Ambos modelos presentan el mismo problema en la distribución del MAPE, y es que la media queda distorsionada por los valores máximo que se alcanzan. - Para los dos modelos, la media del error es alta (60%), sin embargo, la mayoría de datos se predicen con errores mucho más pequeños, y la mitad de los datos son capaces de predecirse con errores alrededor del 15%. - La mala media de los errores de predicción se debe a la existencia de puntos donde el modelo presenta errores altísimos. - Las causas de estas grandes desviaciones del error se achacan a los puntos atípicos de la distribución de las emisiones de CO2, pero no son necesariamente la única causa. - Ambos modelos se pueden considerar satisfactorios, aunque de resultados mejorables, presentando el modelo con 5 RNN algunas ventajas: predice mejor la mayoría de los datos (el tercer cuantil del MAPE es mucho más pequeño), el MSE con 5 RNN es más de la mitad de pequeño que con 1 RNN, y el VE y MAE también son menores. Por otro lado, la media, mediana y primer cuantil del MAPE toman valores parecidos aunque algo menores con 1 RNN y los tiempos de construcción son mucho más reducidos. Las ganancias del modelo con 5 RNN se consideran más importantes. A la vista de los resultados se puede concluir que los modelos de RNN se adaptan bien al problema de las predicciones de emisiones de CO2, aunque la investigación no se debe dar por finalizada ya que existen posibles vías de continuación de mejora.

More information

Item ID: 66442
DC Identifier: https://oa.upm.es/66442/
OAI Identifier: oai:oa.upm.es:66442
Deposited by: Estrella Martín Gutiérrez
Deposited on: 17 Mar 2021 12:22
Last Modified: 17 Mar 2021 12:22
  • Logo InvestigaM (UPM)
  • Logo GEOUP4
  • Logo Open Access
  • Open Access
  • Logo Sherpa/Romeo
    Check whether the anglo-saxon journal in which you have published an article allows you to also publish it under open access.
  • Logo Dulcinea
    Check whether the spanish journal in which you have published an article allows you to also publish it under open access.
  • Logo de Recolecta
  • Logo del Observatorio I+D+i UPM
  • Logo de OpenCourseWare UPM