Citation
Robles Martín, Francisco
(2017).
Comparativa de plataformas de streaming de datos en un entorno distribuido.
Proyecto Fin de Carrera / Trabajo Fin de Grado, E.T.S. de Ingenieros Informáticos (UPM), Madrid, España.
Abstract
Actualmente se generan cantidades ingentes de datos, lo que se conoce como “Big Data”. Como consecuencia, se han desarrollado nuevas aplicaciones informáticas que utilizando una lógica distinta a la tradicional son capaces de manejar cientos y miles de máquinas formando clústeres, y procesar dichos datos en periodos de tiempo mucho menores.
Todo este campo se separa a su vez en varias formas de procesamiento según las necesidades, como es el caso del análisis de datos en tiempo real, el cual requiere de un análisis de grandes cantidades de datos, pero enfocado principalmente a la rapidez (latencia) con la que se analizan estos datos una vez generados sin necesidad de ser almacenados.
Este documento contiene la comparación de dos frameworks de análisis de datos en streaming para entornos distribuidos: Apache Spark con su complemento Spark Streaming, y Apache Flink. Esta comparación abarca tanto el rendimiento a la hora de procesar diferentes tipos de datos, como a nivel de funcionalidades y características que proporcionan para dicho procesamiento.---ABSTRACT---Nowadays massive amounts of data are generated, this is known as “Big Data”. Consequently, new applications have been developed, that using a different logic than the traditional, can handle hundreds and thousands of computers making clusters, and process all this huge data in a shorter period.
This whole field is split in some different processing techniques depending on the needs, like the real-time data analysis, which requires to process a lot of data, but focused on the speed (latency) of processing this data once it has been generated without the need of storing it.
This paper is about the comparison of two different streaming analytics frameworks for distributed environments: Apache Spark with its complement Spark Streaming, and Apache Flink. This comparison covers both the performance when processing different types of data and the level of functionalities and characteristics they provide for such processing.