Online clustering sobre data streaming usando clustream

Cámara Braña, Sergio (2018). Online clustering sobre data streaming usando clustream. Proyecto Fin de Carrera / Trabajo Fin de Grado, E.T.S.I. de Sistemas Informáticos (UPM), Madrid.

Description

Title: Online clustering sobre data streaming usando clustream
Author/s:
  • Cámara Braña, Sergio
Contributor/s:
  • Mozo Velasco, Alberto
  • Gómez Canaval, Sandra
Item Type: Final Project
Degree: Grado en Ingeniería del Software
Date: 13 February 2018
Subjects:
Freetext Keywords: Algoritmos computacionales Análisis de datos
Faculty: E.T.S.I. de Sistemas Informáticos (UPM)
Department: Sistemas Informáticos
Creative Commons Licenses: Recognition - No derivative works - Non commercial

Full text

[img] PDF - Users in campus UPM only - Requires a PDF viewer, such as GSview, Xpdf or Adobe Acrobat Reader
Download (2MB)
[img] Archive (ZIP) (Anexos) - Users in campus UPM only
Download (86kB)

Abstract

En este Trabajo Fin de Grado se ha desarrollado un algoritmo de Machine Learning llamado CluStream. Éste es un algoritmo de clustering especialmente diseñado para trabajar en ambientes de streaming. Para su desarrollo se ha utilizado la plataforma de procesamiento masivo de datos ultra-escalable Apache Spark. En el proyecto se han identificado los principales algoritmos de Machine Learning para data streaming junto con sus principales características. También se la elaborado y documentado todas las fases del proceso software que se han seguido en la implementación del algoritmo. El sistema implementado cuenta con tres componentes software: un componente que simula el stream de datos, otro que contiene la implementación del algoritmo y un tercero que evalúa los resultados de este último. Además, el sistema cuenta con un servidor Kafka de donde el algoritmo consume los datos y una base de datos Cassandra que guarda los datasets utilizados para probar el sistema. Por último, se ha elaborado un estudio del algoritmo donde se ha analizado el efecto de sus principales parámetros configurables sobre la calidad del clustering y el rendimiento del mismo y las ventajas que proporciona la paralelización de su ejecución. Abstract: In this Final Degree Project a Machine Learning algorithm called CluStream has been developed. It is a clustering algorithm specially designed to work on streaming contexts. The massively data processing and ultra-scalabe platform Apache Spark has been used for its deployment. In this project, the main Machine Learning algorithms for data streaming have been indentified along with their main charactersitics. Besides, all the phases of the software process that have been followed in the implemented system has three software components: a component that simulates the data stream, another that contains the implementation of the algorithm and a third one that evaluates the results of the algorithm. In addition, the system has a Kafka server from which the algorithm consumes the data and a Cassandra database that stores the datasets used to test the system. Finally, a study of the algorithm has been elaborated where the effect of its main configurable parameters on the quality of the clustering and its performance and the advantages provided by the parallelization of its execution have been analyzed.

More information

Item ID: 50554
DC Identifier: http://oa.upm.es/50554/
OAI Identifier: oai:oa.upm.es:50554
Deposited by: Biblioteca Universitaria Campus Sur
Deposited on: 03 May 2018 07:06
Last Modified: 03 May 2018 07:06
  • Logo InvestigaM (UPM)
  • Logo GEOUP4
  • Logo Open Access
  • Open Access
  • Logo Sherpa/Romeo
    Check whether the anglo-saxon journal in which you have published an article allows you to also publish it under open access.
  • Logo Dulcinea
    Check whether the spanish journal in which you have published an article allows you to also publish it under open access.
  • Logo de Recolecta
  • Logo del Observatorio I+D+i UPM
  • Logo de OpenCourseWare UPM