Estudio conceptual de Big Data utilizando Spring

Muñumel Mesa, Gabriel David (2018). Estudio conceptual de Big Data utilizando Spring. Thesis (Master thesis), E.T.S.I. de Sistemas Informáticos (UPM).

Description

Title: Estudio conceptual de Big Data utilizando Spring
Author/s:
  • Muñumel Mesa, Gabriel David
Contributor/s:
  • Bernal Bermúdez, Jesús
Item Type: Thesis (Master thesis)
Masters title: Ingeniería Web
Date: 1 July 2018
Subjects:
Freetext Keywords: Big Data
Faculty: E.T.S.I. de Sistemas Informáticos (UPM)
Department: Sistemas Informáticos
Creative Commons Licenses: Recognition - No derivative works - Non commercial

Full text

[img]
Preview
PDF - Requires a PDF viewer, such as GSview, Xpdf or Adobe Acrobat Reader
Download (3MB) | Preview
[img] Archive (ZIP) (Anexos) - Users in campus UPM only
Download (326MB)

Abstract

Big Data ha sido el término dado para aglomerar la gran cantidad de datos que no pueden ser procesados por los métodos tradicionales. Entre sus funciones principales se encuentran la captura de datos, almacenamiento, análisis, búsqueda, transferencia, visualización, monitoreo y modificación. Las empresas han visto en Big Data una poderosa herramienta para mejorar sus negocios en una economía mundial basada firmemente en el conocimiento. Los datos son el combustible para las compañías modernas y, por lo tanto, dar sentido a estos datos permite realmente comprender las conexiones invisibles dentro de su origen. En efecto, con mayor información se toman mejores decisiones, permitiendo la creación de estrategias integrales e innovadoras que garanticen resultados exitosos. Dada la creciente relevancia de Big Data en el entorno profesional moderno ha servido como motivación para la realización de este proyecto. Con la utilización de Java como software de desarrollo y Spring como framework web se desea analizar y comprobar qué herramientas ofrecen estas tecnologías para aplicar procesos enfocados en Big Data. De forma que, se tenga un caso teórico y práctico que sirva como base para el desarrollo e implementación de aplicaciones web más complejas. De esta forma Hadoop se ha convertido en la referencia mundial para implementar soluciones de Big Data en las grandes compañías. En este proyecto se muestran las herramientas que ofrece Spring para integrarse y facilitar el desarrollo e implementación de aplicaciones Hadoop utilizando este framework web. Adicionalmente, se muestran ejemplos prácticos en el uso de MapReduce y se enfatiza la importancia que tiene en el procesamiento de grandes cantidades de datos. En efecto, MapReduce es la base de Hadoop para aplicar Big Data. Sin embargo, para realizar análisis y en algunos casos prácticos mas complejos de Big Data, MapReduce no es la mejor solución, es por ello que se han creado herramientas que utilizando la creación de consultas similares a SQL permiten la manipulación de la data. Entre estas herramientas encontramos: Hive, Pig y HBase. Hive utiliza un sitema de consultas muy similar a SQL. Pig proporciona un lenguaje llamado Pig Latin que permite realizar Jobs MapReduce pero de alto nivel. Por último, HBase es un sistema de base de datos distributivo y no relacional dando capacidades de Bigtable. Adicionalmente, para dar soluciones Big Data en flujos de datos en tiempo real es esencial la ejecución de Jobs como procesos por lotes, es aquí en donde entra el uso de Spring Batch y Hadoop. Se muestran los mismos ejemplos practicos para Hive, Pig y HBase pero integrados con Spring Batch. Algunos de los ejemplos mostrados en este proyecto utlizan MVC y pueden ser fácilmente ampliados a soluciones API Rest si es necesario. Abstract: Big Data has been the term given to agglomerate the large amount of data that can not be processed by traditional methods. Its main functions include data capture, storage, analysis, search, transfer, visualization, monitoring and modification. Companies have seen in Big Data a powerful tool to improve their business in a global economy based firmly on knowledge. Data is the fuel for modern companies and, therefore, making sense of this data allows us to really understand the invisible connections within their origin. In fact, with better information, better decisions are made, allowing the creation of integral and innovative strategies that guarantee successful results. Given the growing relevance of Big Data in the modern professional environment has served as a motivation for the realization of this project. With the use of Java as development software and Spring as a web framework, we want to analyze and verify what tools these technologies offer to apply processes focused on Big Data. So, we have a theoretical and practical case that serves as a basis for the development and implementation of more complex web applications. In this way, Hadoop has become the world reference for implementing Big Data solutions in large companies. This project shows the tools offered by Spring to integrate and facilitate the development and implementation of Hadoop applications using this web framework. Additionally, practical examples are shown in the use of MapReduce and the importance it has in the processing of large amounts of data is emphasized. In effect, MapReduce is the basis of Hadoop to apply Big Data. However, to perform analysis and in some more complex practical cases, MapReduce is not the best solution, that is why they have created tools that using the creation of SQL-like queries allow the manipulation of data. Among these tools we find: Hive, Pig and HBase. Hive uses a query system very similar to SQL. Pig provides a language called Pig Latin that allows MapReduce Jobs but in a high level. Finally, HBase is a distributive and non-relational database system with Bigtable capabilities. Additionally, in order to provide Big Data solutions in real time data flows, the execution of Jobs as batch processes is essential, this is where the use of Spring Batch and Hadoop comes in. The same practical examples are shown for Hive, Pig and HBase but integrated with Spring Batch. Some of the examples shown in this project use MVC and can easily be extended to API Rest solutions if necessary.

More information

Item ID: 53175
DC Identifier: http://oa.upm.es/53175/
OAI Identifier: oai:oa.upm.es:53175
Deposited by: Biblioteca Universitaria Campus Sur
Deposited on: 04 Dec 2018 15:48
Last Modified: 04 Dec 2018 15:48
  • Logo InvestigaM (UPM)
  • Logo GEOUP4
  • Logo Open Access
  • Open Access
  • Logo Sherpa/Romeo
    Check whether the anglo-saxon journal in which you have published an article allows you to also publish it under open access.
  • Logo Dulcinea
    Check whether the spanish journal in which you have published an article allows you to also publish it under open access.
  • Logo de Recolecta
  • Logo del Observatorio I+D+i UPM
  • Logo de OpenCourseWare UPM