Comparativa de plataformas de streaming de datos en un entorno distribuido

Robles Martín, Francisco (2017). Comparativa de plataformas de streaming de datos en un entorno distribuido. Proyecto Fin de Carrera / Trabajo Fin de Grado, E.T.S. de Ingenieros Informáticos (UPM), Madrid, España.

Descripción

Título: Comparativa de plataformas de streaming de datos en un entorno distribuido
Autor/es:
  • Robles Martín, Francisco
Director/es:
  • Patiño Martínez, Marta
Tipo de Documento: Proyecto Fin de Carrera/Grado
Grado: Grado en Ingeniería Informática
Fecha: Junio 2017
Materias:
Escuela: E.T.S. de Ingenieros Informáticos (UPM)
Departamento: Lenguajes y Sistemas Informáticos e Ingeniería del Software
Licencias Creative Commons: Reconocimiento - Sin obra derivada - No comercial

Texto completo

[img]
Vista Previa
PDF (Document Portable Format) - Se necesita un visor de ficheros PDF, como GSview, Xpdf o Adobe Acrobat Reader
Descargar (3MB) | Vista Previa

Resumen

Actualmente se generan cantidades ingentes de datos, lo que se conoce como “Big Data”. Como consecuencia, se han desarrollado nuevas aplicaciones informáticas que utilizando una lógica distinta a la tradicional son capaces de manejar cientos y miles de máquinas formando clústeres, y procesar dichos datos en periodos de tiempo mucho menores. Todo este campo se separa a su vez en varias formas de procesamiento según las necesidades, como es el caso del análisis de datos en tiempo real, el cual requiere de un análisis de grandes cantidades de datos, pero enfocado principalmente a la rapidez (latencia) con la que se analizan estos datos una vez generados sin necesidad de ser almacenados. Este documento contiene la comparación de dos frameworks de análisis de datos en streaming para entornos distribuidos: Apache Spark con su complemento Spark Streaming, y Apache Flink. Esta comparación abarca tanto el rendimiento a la hora de procesar diferentes tipos de datos, como a nivel de funcionalidades y características que proporcionan para dicho procesamiento.---ABSTRACT---Nowadays massive amounts of data are generated, this is known as “Big Data”. Consequently, new applications have been developed, that using a different logic than the traditional, can handle hundreds and thousands of computers making clusters, and process all this huge data in a shorter period. This whole field is split in some different processing techniques depending on the needs, like the real-time data analysis, which requires to process a lot of data, but focused on the speed (latency) of processing this data once it has been generated without the need of storing it. This paper is about the comparison of two different streaming analytics frameworks for distributed environments: Apache Spark with its complement Spark Streaming, and Apache Flink. This comparison covers both the performance when processing different types of data and the level of functionalities and characteristics they provide for such processing.

Más información

ID de Registro: 47732
Identificador DC: http://oa.upm.es/47732/
Identificador OAI: oai:oa.upm.es:47732
Depositado por: Biblioteca Facultad de Informatica
Depositado el: 13 Sep 2017 14:20
Ultima Modificación: 13 Sep 2017 14:20
  • Open Access
  • Open Access
  • Sherpa-Romeo
    Compruebe si la revista anglosajona en la que ha publicado un artículo permite también su publicación en abierto.
  • Dulcinea
    Compruebe si la revista española en la que ha publicado un artículo permite también su publicación en abierto.
  • Recolecta
  • e-ciencia
  • Observatorio I+D+i UPM
  • OpenCourseWare UPM