Comparativa de plataformas de streaming de datos en un entorno distribuido

Robles Martín, Francisco (2017). Comparativa de plataformas de streaming de datos en un entorno distribuido. Trabajo Fin de Grado / Proyecto Fin de Carrera, E.T.S. de Ingenieros Informáticos (UPM), Madrid, España.

Descripción

Título:	Comparativa de plataformas de streaming de datos en un entorno distribuido
Autor/es:	Robles Martín, Francisco
Director/es:	Patiño Martínez, Marta https://orcid.org/0000-0001-6947-4974
Tipo de Documento:	Trabajo Fin de Grado o Proyecto Fin de Carrera
Grado:	Grado en Ingeniería Informática
Fecha:	Junio 2017
Materias:	Informática
ODS:	09. Industria, innovación e infraestructura
Escuela:	E.T.S. de Ingenieros Informáticos (UPM)
Departamento:	Lenguajes y Sistemas Informáticos e Ingeniería del Software
Licencias Creative Commons:	Reconocimiento - Sin obra derivada - No comercial

Texto completo

[thumbnail of TFG_FRANCISCO_ROBLES_MARTIN.pdf]

Vista Previa

PDF (Portable Document Format) - Se necesita un visor de ficheros PDF, como GSview, Xpdf o Adobe Acrobat Reader
Descargar (3MB) | Vista Previa

Resumen

Actualmente se generan cantidades ingentes de datos, lo que se conoce como “Big Data”. Como consecuencia, se han desarrollado nuevas aplicaciones informáticas que utilizando una lógica distinta a la tradicional son capaces de manejar cientos y miles de máquinas formando clústeres, y procesar dichos datos en periodos de tiempo mucho menores.
Todo este campo se separa a su vez en varias formas de procesamiento según las necesidades, como es el caso del análisis de datos en tiempo real, el cual requiere de un análisis de grandes cantidades de datos, pero enfocado principalmente a la rapidez (latencia) con la que se analizan estos datos una vez generados sin necesidad de ser almacenados.
Este documento contiene la comparación de dos frameworks de análisis de datos en streaming para entornos distribuidos: Apache Spark con su complemento Spark Streaming, y Apache Flink. Esta comparación abarca tanto el rendimiento a la hora de procesar diferentes tipos de datos, como a nivel de funcionalidades y características que proporcionan para dicho procesamiento.---ABSTRACT---Nowadays massive amounts of data are generated, this is known as “Big Data”. Consequently, new applications have been developed, that using a different logic than the traditional, can handle hundreds and thousands of computers making clusters, and process all this huge data in a shorter period.
This whole field is split in some different processing techniques depending on the needs, like the real-time data analysis, which requires to process a lot of data, but focused on the speed (latency) of processing this data once it has been generated without the need of storing it.
This paper is about the comparison of two different streaming analytics frameworks for distributed environments: Apache Spark with its complement Spark Streaming, and Apache Flink. This comparison covers both the performance when processing different types of data and the level of functionalities and characteristics they provide for such processing.

Más información

ID de Registro:	47732
Identificador DC:	https://oa.upm.es/47732/
Identificador OAI:	oai:oa.upm.es:47732
Depositado por:	Biblioteca Facultad de Informatica
Depositado el:	13 Sep 2017 14:20
Ultima Modificación:	13 Sep 2017 14:20

Estadísticas

Exportar cita

Editar (sólo personal del Archivo)

En esta página

Menú principal

Buscar

Comparativa de plataformas de streaming de datos en un entorno distribuido

Cita

Descripción

Texto completo

Resumen

Más información

Acciones

Documentos

El repositorio

Agrupados por ...

Datos Investigación

Financiadores

Especiales

En otros formatos

Redes sociales

Información adicional