Aplicación de machine learning al análisis de contaminantes en acuíferos

Castellanos Díez, Héctor (2021). Aplicación de machine learning al análisis de contaminantes en acuíferos. Thesis (Master thesis), E.T.S.I. Industriales (UPM).

Description

Title: Aplicación de machine learning al análisis de contaminantes en acuíferos
Author/s:
  • Castellanos Díez, Héctor
Contributor/s:
  • Rodríguez Chueca, Jorge Jesús
  • Vicente González, David Jesús
Item Type: Thesis (Master thesis)
Masters title: Ingeniería Ambiental
Date: February 2021
Subjects:
Freetext Keywords: acuífero, machine learning, nitratos, arsénico, agua, modelos de predicción
Faculty: E.T.S.I. Industriales (UPM)
Department: Ingeniería Química Industrial y del Medio Ambiente
Creative Commons Licenses: Recognition - No derivative works - Non commercial

Full text

[img]
Preview
PDF - Requires a PDF viewer, such as GSview, Xpdf or Adobe Acrobat Reader
Download (3MB) | Preview

Abstract

La investigación realizada en el presente Trabajo Final de Máster ha consistido en la elaboración de una serie de modelos de predicción de concentración de contaminantes en acuíferos pertenecientes a la Confederación Hidrográfica del Duero (CHD). Estos modelos se han creado utilizando técnicas de análisis de datos, empleando diferentes algoritmos de Machine Learning (ML). Las variables de estudio han sido las concentraciones de dos de los contaminantes de mayor relevancia en materia de aguas subterráneas: los nitratos y el arsénico. Para ello se ha partido de las bases de datos públicas para el estado químico de los acuíferos de la CHD, que poseen registros entre los años 2006 y 2018. Se han establecido dos dominios de estudio: uno general, más amplio y heterogéneo, que incluye todos los acuíferos de la CHD, y otro más concreto, con una mayor homogeneidad en sus registros, correspondiente a uno de los acuíferos de mayor relevancia, en este caso el de la localidad de Medina del Campo (M.d.C), localizado en la provincia de Valladolid. Para construir los modelos se han utilizado parámetros de estado químico (inputs del modelo), identificando aquellas variables que puedan tener una mayor relación con los parámetros de estudio o variables de salida (outputs del modelo). Sobre los inputs, se ha efectuado un intenso pretratamiento de los registros de partida, incluyendo el completado de registros vacíos, con el fin de conseguir archivos .csv aptos para su procesamiento en Python. A continuación, se han elaborado diversos modelos de ML, empleando para ello algoritmos como Decision Tree (DT), Random Forest (RF) o Gradient Boosting Regressor (GB). Para cada uno de los modelos, se han explorado varias formas de incrementar la precisión de estos, como el uso de diferentes estrategias de división de datos de entrenamiento y validación o la realización de análisis de sensibilidad para la optimización de meta-parámetros en cada algoritmo. Por último, se ha llevado a cabo un estudio de la importancia de las variables de entrada o inputs, tratando de identificar aquellos parámetros que tienen mayor importancia a la hora de predecir los modelos construidos. Los mejores resultados obtenidos para nitratos se han logrado en el análisis particular del acuífero de M.d.C., aplicando la estrategia de validación Repeated K-Fold al algoritmo de RF. Adicionalmente, se ha comprobado que existen combinaciones específicas de datos de entrenamiento y validación que permiten obtener R2 superiores a 0,5. En el caso del arsénico, los mejores resultados se han conseguido aplicando el algoritmo RF al dataset del acuífero de M.d.C., en esta ocasión sin aplicar validación cruzada. Los modelos de ambos contaminantes no han alcanzado la precisión exigida para poder utilizarse en la predicción de análisis de riesgo de acuíferos, aunque se han ajustado notablemente mejor en el caso de los nitratos. La principal causa que se ha barajado para justificar estos resultados ha sido la necesidad de implementar como inputs de los modelos variables de otra naturaleza de las cuales no se dispone, como por ejemplo datos geológicos, medioambientales o de actividades humanas, que complementen a las variables de estado químico. La utilización de este conjunto de variables se ha efectuado exitosamente en otros estudios, como aquellos que aplican la metodología DRASTIC junto a otros algoritmos, como Random Forest. Otro posible motivo es que la calidad de los datos no sea la adecuada para la elaboración de este tipo de modelos predictivos, o bien por falta de datos o bien por la precisión de estos.

More information

Item ID: 66907
DC Identifier: https://oa.upm.es/66907/
OAI Identifier: oai:oa.upm.es:66907
Deposited by: Héctor Castellanos
Deposited on: 29 Apr 2021 10:42
Last Modified: 29 Apr 2021 10:43
  • Logo InvestigaM (UPM)
  • Logo GEOUP4
  • Logo Open Access
  • Open Access
  • Logo Sherpa/Romeo
    Check whether the anglo-saxon journal in which you have published an article allows you to also publish it under open access.
  • Logo Dulcinea
    Check whether the spanish journal in which you have published an article allows you to also publish it under open access.
  • Logo de Recolecta
  • Logo del Observatorio I+D+i UPM
  • Logo de OpenCourseWare UPM