Análisis de la contaminación del agua por hidrocarburos: generación de datasets sintéticos y aplicación de técnicas de Machine Learning supervisadas

Arcos Delgado, Álvaro (2020). Análisis de la contaminación del agua por hidrocarburos: generación de datasets sintéticos y aplicación de técnicas de Machine Learning supervisadas. Proyecto Fin de Carrera / Trabajo Fin de Grado, E.T.S.I. de Sistemas Informáticos (UPM), Madrid.

Description

Title: Análisis de la contaminación del agua por hidrocarburos: generación de datasets sintéticos y aplicación de técnicas de Machine Learning supervisadas
Author/s:
  • Arcos Delgado, Álvaro
Contributor/s:
  • Gómez Canaval, Sandra
Item Type: Final Project
Degree: Grado en Ingeniería del Software
Date: 2020
Subjects:
Freetext Keywords: Calidad del agua; Machine Learning
Faculty: E.T.S.I. de Sistemas Informáticos (UPM)
Department: Sistemas Informáticos
Creative Commons Licenses: Recognition - No derivative works - Non commercial

Full text

[img] PDF - Users in campus UPM only - Requires a PDF viewer, such as GSview, Xpdf or Adobe Acrobat Reader
Download (2MB)

Abstract

Este proyecto aborda la problemática del análisis inteligente de datos en dominios de problemas donde existe carencia de datasets etiquetados para utilizar modelos de clasificación con diferentes algoritmos mediante el uso de técnicas de Machine Learning supervisadas. Debido al gran volumen, alta carga de trabajo y complejidad que supone este proyecto, se ha determinado segmentar el contenido del mismo entre dos personas. Respecto a la diversidad de problemas enfrentados, se expone seguidamente la exploración de los propios. El primero de ellos, es la escasez de datasets que puedan utilizarse para entrenar un modelo, bien por la imposibilidad de utilizar datasets reales por protección de datos, o el simple hecho de que no se llega a hacer la recolección, tratamiento, análisis y almacenaje de esos datos correctamente. Por ello, ha sido desarrollada una herramienta para la generación de datasets sintéticos propios, que ejemplifican escenarios configurando diversos parámetros y valores para generar conjuntos de datos de cualquier tamaño, de categorías diferentes, balanceados no imbalanceados, etiquetados o sin etiquetar, con valores simulando errores en la recogida de datos, simbólicos o numéricos. La idea de esta herramienta es generar conjunto de datos que tratan de simular de la mejor manera posible, los datos provenientes de escenarios reales. En segundo lugar, la insuficiencia de cotejos entre diferentes algoritmos que revelen con cierta convicción qué algoritmos son mejores para distintos tipos de datasets. Para esclarecer este punto, se realiza un exhaustivo estudio de diferentes algoritmos, tanto de clasificación binaria como multiclase, utilizando parámetros personalizados para cada uno como la impuridad, repeticiones o profundidad. Modificando los hiperparámetros de cada algoritmo, se podrán plantear diferentes circunstancias en los que los algoritmos de clasificación ofrecen diferentes resultados. Con éstas comparaciones, observamos las ventajas que ofrecen unos frente a otros en rendimiento computacional o precisión dependiendo del volumen de información en el dataset, la variación entre los parámetros para los posibles resultados. Este proyecto se ha tratado como un primer acercamiento para comprobar la fiabilidad de los datasets, por tanto los algoritmos que han sido utilizados son Linear Support Vector Machine para una clasificación binaria y, por otro lado, para clasificación multiclase se implementa Logistic Regression mediante One vs Rest. Finalmente, la recolección, tratamiento, análisis y almacenaje de datos representados se realizará sobre plataformas de computación ultraescalable como Apache Spark. La selección de este herramienta está basada en el hecho que para la transferencia de este desarrollo a un escenario real, podría ser factible plantearse un framework que supone una mejora computacional en cuanto a la escalabilidad, el manejo de data streamming, las capacidades de la computación distribuida y paralela más adecuados cuando se llevan a cabo desarrollos software para aplicaciones IoT con sensorización remota. Abstract: This project addresses the problem of intelligent data analysis over problem domains where there is a lack of labeled datasets required for using classification models of supervised Machine Learning techniques. In particular, this Project explores an attractive and important domain such as Medio-environmental Analysis, specifically the problem of the hydrocarbons pollutants. Due to the large volume, high workload and complexity of this project, it has been split in two parts each one of them to be executed by two students. Regarding the diversity of problems faced, the exploration of their details is presented below. The first of this problems, is the lack of available datasets that can be used to train a Machine Learning model in the Water Quality domain. In a general context, the unavailability of real datasets is due to the LOPD1, or because of the fact that Collecting, Storing, Analyzing, and Using data is not usually done correctly. In some scenarios the solution is the design of a ad-hoc environment in which are reproduced synthetic datasets with parameters and values are equivalent to real ones. These datasets are a perfect replication of the original values obtained from the process of analyzing the presence of hydrocarbon pollutants in water sources. These computational environments allow to generate different kinds of datasets configuring certain parameters. The options which can be modified are the extraction of unlabeled datasets in addition to labeled ones, extracting datasets with some deviated results besides the regular one and obtaining the same dataset, the numeric one and its equivalent symbolic one. Secondly, the insufficiency of comparisons between different algorithms which expose with certain assurance which algorithms are better than other for different kinds of datasets. In order to clarify this concern, it is done an exhaustive study of binary algorithms as well as multiclass algorithms, using their own hyperparameters like impurity, maxDepth or numIter. Modifyng each algorithm’s hyperparameters, varying situations where classification algorithms offer different results. With these comparisons, we can notice the beneficts such as velocity or accuracy ones in opposition to others depending on the dataset’s amount of data or the specific hyperparameters. This project has been treated as a first approach to verify the reliability of datasets, therefore the algorithms that have been used are Linear Support Vector Machine for a binary classification and, on the other hand, for multiclass classification, Logistic Regression is implemented through One vs. Rest. Finally, acquisition, treatment, analysis and storage of data will be performed by the ultra-scalable computing platforms like Apache Spark. This can be a framework that will be a computing improvement in light of other options when it is imperative to have a way of working in a distributed and parallell may to simulate data from remote sensing as an example.

More information

Item ID: 62663
DC Identifier: http://oa.upm.es/62663/
OAI Identifier: oai:oa.upm.es:62663
Deposited by: Biblioteca Universitaria Campus Sur
Deposited on: 05 Jun 2020 05:28
Last Modified: 05 Jun 2020 05:28
  • Logo InvestigaM (UPM)
  • Logo GEOUP4
  • Logo Open Access
  • Open Access
  • Logo Sherpa/Romeo
    Check whether the anglo-saxon journal in which you have published an article allows you to also publish it under open access.
  • Logo Dulcinea
    Check whether the spanish journal in which you have published an article allows you to also publish it under open access.
  • Logo de Recolecta
  • Logo del Observatorio I+D+i UPM
  • Logo de OpenCourseWare UPM