Identificación de hidrocarburos en aguas contaminadas. Aplicación de técnicas de clasificación no supervisadas

Ramos Valderrama, José Manuel (2020). Identificación de hidrocarburos en aguas contaminadas. Aplicación de técnicas de clasificación no supervisadas. Proyecto Fin de Carrera / Trabajo Fin de Grado, E.T.S.I. de Sistemas Informáticos (UPM), Madrid.

Description

Title: Identificación de hidrocarburos en aguas contaminadas. Aplicación de técnicas de clasificación no supervisadas
Author/s:
  • Ramos Valderrama, José Manuel
Contributor/s:
  • Gómez Canaval, Sandra
Item Type: Final Project
Degree: Grado en Ingeniería del Software
Date: January 2020
Subjects:
Faculty: E.T.S.I. de Sistemas Informáticos (UPM)
Department: Sistemas Informáticos
Creative Commons Licenses: Recognition - No derivative works - Non commercial

Full text

[img] PDF - Users in campus UPM only - Requires a PDF viewer, such as GSview, Xpdf or Adobe Acrobat Reader
Download (3MB)

Abstract

Este proyecto centra su estudio en el análisis de diferentes técnicas de Machine Learning para la identificación de hidrocarburos en aguas fluviales, concretamente, técnicas de clasificación no supervisadas. Hoy en día, existen variedad de soluciones que, a través de diversos tipos de sensores, permiten recoger parámetros básicos y complejos del estado del cuerpo del agua que fluye por los ríos. La idea de este Trabajo de Fin de Grado (TFG) es utilizar técnicas de aprendizaje automático que permitan obtener información a partir de los parámetros generados por dichos sensores, específicamente los relacionados con la identificación de presencia de hidrocarburos contaminantes en la superficie del agua. En primer lugar, se han estudiado los conceptos básicos para entender en qué consiste el Data Mining y el Machine Learning y así tener una base teórica sobre la cual fundamentar el desarrollo de este TFG. Posteriormente, se han estudiado con mayor profundidad las diferentes técnicas, en concreto, los algoritmos de clasificación no supervisada (clustering o agrupamiento), que permiten realizar una clasificación de los tipos de hidrocarburos presentes en datos que podrían ser recogidos de una fuente de agua. En segundo lugar, se han preparado los datasets y el entorno de ejecución de los algoritmos. Una de las fases de mayor importancia en cualquier proyecto de Machine Learning es la de pre-entrenamiento, ya que la precisión de los resultados y la validez de los mismos residen en que los experimentos se lleven a cabo con datos de calidad. De esta forma, a partir de una herramienta de generación de datasets sintéticos sobre muestras de aguas contaminadas por hidrocarburos, se han construido datasets con una representación equitativa de los diferentes tipos de contaminantes y se ha configurado la aplicación utilizada dentro del framework Weka para la ejecución de los algoritmos. Por último, se han ejecutado los diferentes algoritmos y se han evaluado los resultados obtenidos. Además, se ha realizado una comparativa entre los distintos algoritmos para entender mejor las diferencias en cuanto a las tasas de error y los tiempos de ejecución. Una vez analizados los resultados, se ha demostrado que este tipo de algoritmos son capaces de identificar, de forma bastante precisa, los hidrocarburos presentes en el agua a través de los datasets sintéticos utilizados. En consecuencia, el impacto medioambiental y social que puede tener este Proyecto si se traslada a un entorno real con una solución IoT real y con datasets reales, puede ser realmente positivo ya que una detección temprana de estos contaminantes, implicaría salvaguardar nuestra salud y la del entorno que nos rodea. En conclusión, la importancia de este proyecto es clave ya que estudios previos que permitan validar la aplicación de técnicas inteligentes para preservar la calidad de nuestras vidas y del medio ambiente son de vital importancia para la sociedad. Los resultados que se han obtenido hacen posible determinar cuáles son las técnicas que mejor cumplen la labor de identificación de hidrocarburos y nos invitan al optimismo de la viabilidad de utilizar de forma sencilla técnicas de aprendizaje automático que redunden en la esperanza de vivir en un mundo más limpio y sano. Abstract: This project is focused on the analysis of Machine Learning techniques (concretely, unsupervised techniques) for the identification of the hydrocarbons contaminants on the surface of the rivers. Nowadays, there is a wide variety of solutions which use sensors capable of getting basic and complex parameters from the water streaming on the rivers. So, the idea of this Final Project Degree is to use Machine Learning algorithms which allow us to get knowledge from the sensor’s data, specifically the ones related with the identification of the hydrocarbons contaminants. Firstly, this work overviews the basic concepts of Data Mining and Machine Learning in order to understand the basis and have a theoretical background. Later on, it goes deeper on the study of the techniques, especially it details the clustering algorithms which do unsupervised learning. These techniques allow us to classify the hydrocarbon data generated from a water source. Secondly, this work shows how the datasets and the running environment were being prepared. Pre-training phase is one of the most important processes in a Machine Learning project. In fact, the validity of the results depends on the quality of the datasets prepared for training. As a consequence the datasets were made from a tool for generating synthetic data with an equal representation of all the hydrocarbons. After that, the application Weka was being configured for running the algorithms. Finally, this work shows the results of the algorithms and evaluates them. Moreover, it compares the results of the algorithms to understand better the different error rates and running times between them. The results show that these kinds of algorithms are capable enough of identifying the hydrocarbons in the water, at least using the synthetic datasets. Consequently, this project could be moved to a real IoT solution using real datasets. These achievements have an environmental and social impact which is really positive in the way that brings us a tool for early detection of the pollutants. To sum up, previous studies are really important in the way they measure the validity of the application of intelligent techniques before they are deployed. Moreover, they have a huge impact on society when their goal is to preserve the quality of our lives and the environment. After executing the algorithms we know which ones work better and also that these kinds of techniques work in a suitable way in order to be applied into real scenarios for the sustainability of a healthier world and the continuous supervision of the natural resource, which may be possible in the future.

More information

Item ID: 66258
DC Identifier: http://oa.upm.es/66258/
OAI Identifier: oai:oa.upm.es:66258
Deposited by: Biblioteca Universitaria Campus Sur
Deposited on: 04 Mar 2021 12:12
Last Modified: 04 Mar 2021 12:12
  • Logo InvestigaM (UPM)
  • Logo GEOUP4
  • Logo Open Access
  • Open Access
  • Logo Sherpa/Romeo
    Check whether the anglo-saxon journal in which you have published an article allows you to also publish it under open access.
  • Logo Dulcinea
    Check whether the spanish journal in which you have published an article allows you to also publish it under open access.
  • Logo de Recolecta
  • Logo del Observatorio I+D+i UPM
  • Logo de OpenCourseWare UPM