Comparativa de plataformas de streaming de datos en un entorno distribuido

Robles Martín, Francisco (2017). Comparativa de plataformas de streaming de datos en un entorno distribuido. Proyecto Fin de Carrera / Trabajo Fin de Grado, E.T.S. de Ingenieros Informáticos (UPM), Madrid, España.

Description

Title: Comparativa de plataformas de streaming de datos en un entorno distribuido
Author/s:
  • Robles Martín, Francisco
Contributor/s:
  • Patiño Martínez, Marta
Item Type: Final Project
Degree: Grado en Ingeniería Informática
Date: June 2017
Subjects:
Faculty: E.T.S. de Ingenieros Informáticos (UPM)
Department: Lenguajes y Sistemas Informáticos e Ingeniería del Software
Creative Commons Licenses: Recognition - No derivative works - Non commercial

Full text

[img]
Preview
PDF - Requires a PDF viewer, such as GSview, Xpdf or Adobe Acrobat Reader
Download (3MB) | Preview

Abstract

Actualmente se generan cantidades ingentes de datos, lo que se conoce como “Big Data”. Como consecuencia, se han desarrollado nuevas aplicaciones informáticas que utilizando una lógica distinta a la tradicional son capaces de manejar cientos y miles de máquinas formando clústeres, y procesar dichos datos en periodos de tiempo mucho menores. Todo este campo se separa a su vez en varias formas de procesamiento según las necesidades, como es el caso del análisis de datos en tiempo real, el cual requiere de un análisis de grandes cantidades de datos, pero enfocado principalmente a la rapidez (latencia) con la que se analizan estos datos una vez generados sin necesidad de ser almacenados. Este documento contiene la comparación de dos frameworks de análisis de datos en streaming para entornos distribuidos: Apache Spark con su complemento Spark Streaming, y Apache Flink. Esta comparación abarca tanto el rendimiento a la hora de procesar diferentes tipos de datos, como a nivel de funcionalidades y características que proporcionan para dicho procesamiento.---ABSTRACT---Nowadays massive amounts of data are generated, this is known as “Big Data”. Consequently, new applications have been developed, that using a different logic than the traditional, can handle hundreds and thousands of computers making clusters, and process all this huge data in a shorter period. This whole field is split in some different processing techniques depending on the needs, like the real-time data analysis, which requires to process a lot of data, but focused on the speed (latency) of processing this data once it has been generated without the need of storing it. This paper is about the comparison of two different streaming analytics frameworks for distributed environments: Apache Spark with its complement Spark Streaming, and Apache Flink. This comparison covers both the performance when processing different types of data and the level of functionalities and characteristics they provide for such processing.

More information

Item ID: 47732
DC Identifier: http://oa.upm.es/47732/
OAI Identifier: oai:oa.upm.es:47732
Deposited by: Biblioteca Facultad de Informatica
Deposited on: 13 Sep 2017 14:20
Last Modified: 13 Sep 2017 14:20
  • Logo InvestigaM (UPM)
  • Logo GEOUP4
  • Logo Open Access
  • Open Access
  • Logo Sherpa/Romeo
    Check whether the anglo-saxon journal in which you have published an article allows you to also publish it under open access.
  • Logo Dulcinea
    Check whether the spanish journal in which you have published an article allows you to also publish it under open access.
  • Logo de Recolecta
  • Logo del Observatorio I+D+i UPM
  • Logo de OpenCourseWare UPM