Estudio de las emisiones de NOx mediante redes neuronales recurrentes

Delgado Cervantes, Deyli (2020). Estudio de las emisiones de NOx mediante redes neuronales recurrentes. Thesis (Master thesis), E.T.S.I. Industriales (UPM).

Description

Title: Estudio de las emisiones de NOx mediante redes neuronales recurrentes
Author/s:
  • Delgado Cervantes, Deyli
Contributor/s:
  • Mira McWilliams, José Manuel
Item Type: Thesis (Master thesis)
Masters title: Ingeniería de Organización
Date: September 2020
Subjects:
Freetext Keywords: Redes neuronales, Redes neuronales recurrentes, Deep Learning, Machine Leanirng, Data science, Data Mining, emisiones contaminantes de NOx, contaminación autobuses de la EMT, Keras API, SimpleRNN, red Elman.
Faculty: E.T.S.I. Industriales (UPM)
Department: Ingeniería de Organización, Administración de Empresas y Estadística
Creative Commons Licenses: Recognition - No derivative works - Non commercial

Full text

[img]
Preview
PDF - Requires a PDF viewer, such as GSview, Xpdf or Adobe Acrobat Reader
Download (2MB) | Preview

Abstract

Introducción La contaminación ambiental es un problema global que afecta al planeta Tierra, y en los últimos años sus consecuencias se han hecho más evidentes. Esta situación afecta tanto a la salud de los humanos como a la de la flora y la fauna, y atenta contra la existencia del propio planeta Tierra, ya que varios contaminantes influyen directamente en el calentamiento global. No es solo una cuestión medioambiental y de salud, pues también afecta a la economía, ya que daña a los cultivos agrícolas, a la biodiversidad marina con la cual se comercia y contribuye al calentamiento global, generando desastres naturales que ocasionan daños materiales cuantificados en grandes sumas de dinero. Por estas razones, ha crecido a nivel global la preocupación respecto a esta problemática. La contaminación atmosférica es provocada por emisiones de determinadas sustancias al medio ambiente, algunas de las cuales se generan de forma natural, pero las más preocupantes, se generan debido a las reacciones químicas que suceden en la quema de combustibles fósiles como la gasolina y el diésel, que se utilizan en los motores de combustión interna alternativos (MCIA). Uno de los contaminantes generados por los MCIA, que están presentes principalmente en los motores diésel, pero cada vez más en los motores de gasolina en un intento por aumentar su rendimiento, son los NOx (ABC, 2018). Estos contaminantes son responsables de la lluvia ácida, la formación del smog fotoquímico y en unión con otros compuestos forman el ozono troposférico causante de daños a la salud y a los cultivos agrícolas. Aunque se han incorporado mejoras en el diseño de los motores para disminuir las emisiones de NOx, se utilizan biocombustibles y se establecen políticas medioambientales, la Comunidad de Madrid en el 2018 superó los límites legales de NO2 por noveno año consecutivo (Ecologistas en acción, 2019). Por tanto, aún existe un problema latente respecto a las emisiones de NOx, y se han realizado varias investigaciones de diferentes enfoques con el objetivo de reducir estas emisiones y de las de otros contaminantes. Este trabajo forma parte de una de estas investigaciones enfocadas a la reducción de las emisiones contaminantes, en específico en los autobuses de la EMT que también utilizan los MCIA. El proyecto CICLOPE, que da nombre a esta investigación, está dirigido por el Instituto Universitario de Investigación del Automóvil (INSIA) y por la ETSII. El objetivo de este proyecto es desarrollar un sistema experto capaz de generar patrones de conducción para los autobuses de la EMT, basados en ciclos optimizados bajo algoritmos multicriterio (INSIA-UPM, 2016), mediante los cuales sea posible reducir y establecer prioridades en las emisiones de interés en función de diferentes factores. Esta investigación tiene el fin de ser la base teórica para el desarrollo de unos dispositivos para instalar en los autobuses que ayuden a reducir las emisiones y contribuir a la conducción eficiente. Para contribuir a esa base teórica se han elaborado varios trabajos utilizando diferentes métodos estadísticos avanzados que permitan el estudio de los diferentes contaminantes. Uno de estos trabajos es el que se presenta en este informe, que se ha enfocado principalmente en el estudio de las emisiones contaminantes de NOx como variable respuesta, utilizando una red neuronal recurrente para la predicción de estas emisiones en función de variables ambientales, cinemáticas, la carga del vehículo y los retardos de la variable respuesta. Esta última variable se incorpora al modelo debido a que en trabajos anteriores se ha demostrado que mejoran las predicciones cuando se tienen en cuenta valores pasados de la variable respuesta. Las redes neuronales recurrentes son una técnica estadística avanzada que pertenece a las técnicas de Deep Learning, que no se había utilizado anteriormente para el estudio de las emisiones contaminantes de NOx, por lo cual aporta novedad. Por otra parte, son potentes para capturar el comportamiento de un sistema dinámico no-lineal y presentan memoria, interesante en este trabajo en el que se le da especial importancia al orden temporal, ya que se consideran las emisiones de NOx como una serie temporal. Además, otro punto que aporta novedad es el uso del paquete Keras para la construcción de la red neuronal recurrente. De investigaciones anteriores sobre estos mismos contaminantes se sabe que son complicados de predecir, incluso más que otros contaminantes porque a diferencia del CO2 que principalmente depende del consumo de combustible, las emisiones de NOx se ven influenciadas por diversos factores, desde el rendimiento de la tecnología del vehículo hasta la agresividad en la conducción. Para el desarrollo de este trabajo se cuenta con una base de datos en Excel generada en ensayos reales para diferentes niveles de carga y épocas del año, los cuales simulan recorridos habituales de algunas líneas de autobuses de la EMT. Se toman mediciones con una frecuencia de 1 segundo de varias variables como las cinemáticas, ambientales, posicionales y los caudales de los contaminantes entre otras, a través de equipos de alta precisión. Técnicas aplicadas Las redes neuronales recurrentes son un tipo de Deep Learning, el cual es un subcampo del Machine Learning y a su vez este es una rama de la Inteligencia Artificial. El Deep Learning utiliza capas sucesivas para aprender representaciones de los datos y modelarlas con el objetivo de realizar determinadas tareas como la predicción de una variable salida. Estas capas sucesivas, en forma de una estructura de red neuronal, cuenta con unidades llamadas neuronas, las cuales procesan los datos mediante transformaciones lineales y no lineales. En una primera parte la neurona realiza una transformación lineal y en una segunda parte una transformación no lineal, que está dada por una función de activación. En algunas ocasiones esta función de activación es también lineal, por ejemplo, en la capa de salida de un problema de regresión. Estas neuronas están conectadas entre sí, lo cual permite el paso de información a través de toda la red. Una red neuronal está formada por una capa de entrada, varias capas ocultas en el caso de redes neuronales multicapas y una capa de salida. La cantidad de neuronas en la capa de entrada coincide con la cantidad de variables explicativas del modelo y el número de neuronas en la capa de salida depende del tipo de problema que se estudia. El número de neuronas en las capas ocultas no tiene una regla que lo defina, por lo cual es un hiperparámetro que se optimiza. Las redes neuronales son un tipo de técnica de Machine Learning por lo cual su objetivo también es aprender por sí solas captando información de los datos y mejorando su desempeño con la experiencia. Por lo tanto, necesitan ser entrenadas y procesar varias veces los datos para mejorar la actividad que realizan. El aprendizaje de una red neuronal consiste en la actualización de sus parámetros internos, conocidos como pesos, que son valores que se asignan aleatoriamente en el primer barrido de los datos a las ecuaciones matemáticas resultante de las transformaciones lineales y no lineales que realiza cada neurona. Estos pesos serán actualizados cada vez que se procesan los datos para conseguir un mejor desempeño de la red en su tarea. La función de pérdida es quien mide el desempeño de la red, que sería una función objetivo que se debe minimizar o maximizar según el tipo de función. En el caso de problemas de regresión esta función de pérdida suele ser la suma de los errores cuadrado (SSE) y el objetivo es minimizar este error. Cada vez que se procesan los datos, el resultado de las predicciones arrojado por las transformaciones internas de la red se compara con los valores reales y se calcula la función de pérdida. Esta información del error es propagada desde la capa de salida hasta la capa de entrada con el objetivo de calcular el gradiente con información de la derivada de la función de pérdida. El gradiente determina como se verá incrementado el error con cambios en los pesos, por eso se actualizan estos en dirección contraria al gradiente. Esta es la clave del proceso de aprendizaje automático de una red neuronal y este proceso de optimización es conocido como Back-Propagation, el cual está basado en el descenso del gradiente. Existen otros algoritmos de optimización más complejos y avanzados que el Back-Propagation, pero en muchas ocasiones su base es este propio algoritmo. Entonces las redes neuronales recurrentes (RNN) es un tipo de red neuronal, la cual funciona muy parecido a lo que se ha explicado hasta ahora, en lo que se refiere a las transformaciones lineales y no lineales, la diferencia es que las redes neuronales recurrentes tienen memoria. Es decir, se retroalimentan de las señales de salida o del resultado de la función de activación del estado anterior, en cada estado la señal de salida se calcula combinando la información de la señal de entrada y la información de la señal de salida del estado anterior que es almacenada en la capa de contexto. Este tipo de redes también utilizan un tipo de algoritmo de Back-Propagation para realizar la optimización, pero en la derivada de la función de pérdida hay que tener en cuenta además la componente temporal y entonces recibe el nombre de Propagación hacia atrás a través del tiempo (BPTT). Las RNN son adecuadas para modelar series temporales y se benefician de la dependencia temporal entre las variables para realizar las predicciones, por lo cual las hace una técnica interesante para aplicar en este trabajo. Además, en muchas ocasiones no necesitan realizar ninguna ingeniería de características previa, porque son capaces de extraer internamente características útiles de los datos en bruto. Metodología Durante el desarrollo de este trabajo se han llevado a cabo 7 etapas que conforman la metodología de este proyecto, las cuales se detallan a continuación: • Etapa 1 Decisiones claves de partida: en esta etapa se definió el tipo de problema, las variables que serían candidatas para incluir en el modelo, las métricas que se controlarían para tomar las decisiones y la técnica de evaluación. Se tomaron como métricas el MAPE, MAE y MSE y este último es también la función de pérdida de la red. • Etapa 2 Preparación de la base de datos: se calcularon y agregaron las variables aceleración y sobreaceleración, las cuales no estaban presentes en la base de datos en bruto, se agregó la variable estado de la carga como una variable categórica y se unieron todos los ficheros de Excel en uno solo. Además, se realizó un tratamiento de los datos no disponibles y los datos erróneos utilizando la técnica de imputación de valor. • Etapa 3 Explorar la base de datos: se realizó un análisis estadístico unidimensional de la variable respuesta y uno multidimensional para entender las relaciones entre las variables candidatas del modelo. Además, se desarrolló un análisis estadístico de la variable respuesta y sus retardos tratándola como una serie temporal. Finalmente se llevó a cabo un análisis de las curvas cinemáticas y la curva de las emisiones de NOx. • Etapa 4 Preprocesamiento de los datos: en esta etapa se dividió la base de datos en dos subconjuntos, uno destinado al entrenamiento y otro a evaluar la capacidad del modelo final. También se estandarizaron las variables candidatas del modelo. Finalmente se transformó el subconjunto de entrenamiento en una matriz de 3 dimensiones y se crearon la matriz de datos de entrada y la matriz objetivo con las que se alimentarán la red para el entrenamiento. Las columnas de la matriz de datos de entrada representan una secuencia de retardos. • Etapa 5 Desarrollo del modelo base y escalado: se construyó una red básica sencilla, en este caso una Simple RNN, y los errores de su entrenamiento se compararon con un error de referencia para probar el poder estadístico de este tipo de red. Una vez superada esa línea de base mínima y comprobado que esta red tiene poder estadístico, se realizaron sobre la misma varios experimentos con diferentes tamaños de secuencia y se agregaron más neuronas a la capa oculta para determinar la arquitectura que obtiene los mejores resultados. • Etapa 6 Optimización: primeramente, se probó si una red Elman mejoraba los resultados de la red Simple RNN. Luego se fueron incluyendo poco a poco nuevas variables explicativas al modelo y se determinó cuáles de ellas mejoraban los resultados cuando son incluidas a este. También se realizaron varios experimentos agregando más capas ocultas y ajustando la cantidad de neuronas en cada capa. Finalmente se utilizó la técnica de dropout para disminuir el sobreajuste y mejorar el poder de generalización del modelo. • Etapa 7 Predicciones finales y análisis de los resultados: Se realizaron las predicciones finales sobre la muestra test y se evaluaron los errores en la misma, además de otras métricas. También se realizó un estudio de la distribución del MAPE tanto para la muestra de validación como para la muestra test. Finalmente se analizaron los resultados obtenidos. Conclusiones Después del desarrollo de esta metodología y la discusión de los resultados finales se llegaron a las siguientes conclusiones: • En la etapa 3 se detectaron posibles puntos atípicos en la distribución de la variable respuesta y un comportamiento asimétrico. Además, existen errores de medición en la base de datos porque hay un desfase de las variables cinemáticas respecto a la variable de emisiones de NOx. • En la etapa 5 los mejores resultados de las métricas se obtienen para un tamaño de secuencias de 4 retardos y 8 neuronas en la capa oculta. Por otra parte, se consigue estabilizar las métricas para 500 iteraciones. • En la etapa 6 la red Elman no mejora los resultados obtenidos para el mejor modelo con una red Simple RNN. Por otra parte, se mejoran los resultados al introducir las 3 variables cinemáticas con una corrección del desfase de 5 segundos y se obtiene una mejora del 11% en el MAPE de validación. Además, se obtiene una pequeña mejora del MAPE de validación al introducir la mejor combinación de variables ambientales que es la Temperatura y la Humedad y al introducir la Carga se obtiene una ligera mejora en MAE y MSE. Finalmente, después de realizar varios experimentos para el modelo con las 7 variables explicativas seleccionadas (los retardos, las 3 variables cinemáticas, la temperatura, la humedad y la carga) se obtuvieron los mejores resultados para una red RNN Simple con 2 capas ocultas, 16 y 8 neuronas, respectivamente. • Pero en la etapa 6 con la técnica del dropout aplicada a redes más complejas se logró una mejora del MAPE de validación del 13.78% para una red con 3 capas ocultas, 30,35 y 40 neuronas en cada capa, respectivamente respecto a la red anterior de 2 capas ocultas, 16 y 8 neuronas. • En la etapa 7 se demostró la importancia de realizar un estudio de la distribución del MAPE porque para la muestra de validación la media del MAPE obtenida fue alta pero el 50% de las observaciones tienen un MAPE menor a 23%. Además, se determinó que existen valores atípicos altos en la distribución del MAPE tanto para cuando se evalúa en la muestra de validación como en el conjunto de test, pero solo un 12% de las observaciones de la muestra test presentan estos valores atípicos. Por tanto, la mediana del MAPE es más fiable que la media para evaluar la calidad de las predicciones, ya que es más robusta respecto a valores atípicos del MAPE. • Los puntos atípicos de la variable respuesta podrían influir negativamente en la capacidad del modelo empeorando las predicciones de algunas observaciones, ya que el algoritmo intenta explicar el comportamiento de estos puntos atípicos y pierde así las características más comunes de los datos. Pero no se deben eliminar puntos atípicos sin antes investigar la naturaleza de estos, es decir si son errores técnicos de los datos o son valores reales que toman las emisiones de NOx bajo determinadas circunstancias de las variables explicativas. Se muestra el resumen de las métricas evaluadas en la muestra test para las predicciones finales. MÉTRICAS Mediana del MAPE (%):21 Q1 del MAPE (%):6 Q3 del MAPE (%):62 MAE: 0.2356 MSE:0.1396 Correlación:0.958 R2: 91.09% Los errores obtenidos con las predicciones finales para la muestra test no son objetivamente muy bajos. Puede ser debido a la alta dificultad en la predicción de las emisiones contaminantes de NOx demostrada en otros trabajos y que este modelo no recoge todos los factores que influyen en la variable respuesta. Pero la mediana del MAPE es similar a la obtenida en otras investigaciones sobre estos mismos contaminantes. Por lo tanto, los resultados obtenidos con esta investigación son razonables y contribuyen al estudio de las emisiones de NOx para la elaboración de políticas ambientales.

More information

Item ID: 65419
DC Identifier: https://oa.upm.es/65419/
OAI Identifier: oai:oa.upm.es:65419
Deposited by: Deyli Delgado Cervantes
Deposited on: 25 Nov 2020 07:44
Last Modified: 25 Nov 2020 07:44
  • Logo InvestigaM (UPM)
  • Logo GEOUP4
  • Logo Open Access
  • Open Access
  • Logo Sherpa/Romeo
    Check whether the anglo-saxon journal in which you have published an article allows you to also publish it under open access.
  • Logo Dulcinea
    Check whether the spanish journal in which you have published an article allows you to also publish it under open access.
  • Logo de Recolecta
  • Logo del Observatorio I+D+i UPM
  • Logo de OpenCourseWare UPM