Estudio conceptual de Big Data utilizando Spring

Muñumel Mesa, Gabriel David (2018). Estudio conceptual de Big Data utilizando Spring. Tesis (Master), E.T.S.I. de Sistemas Informáticos (UPM).

Descripción

Título: Estudio conceptual de Big Data utilizando Spring
Autor/es:
  • Muñumel Mesa, Gabriel David
Director/es:
  • Bernal Bermúdez, Jesús
Tipo de Documento: Tesis (Master)
Título del máster: Ingeniería Web
Fecha: 1 Julio 2018
Materias:
Palabras Clave Informales: Big Data
Escuela: E.T.S.I. de Sistemas Informáticos (UPM)
Departamento: Sistemas Informáticos
Licencias Creative Commons: Reconocimiento - Sin obra derivada - No comercial

Texto completo

[img]
Vista Previa
PDF (Document Portable Format) - Se necesita un visor de ficheros PDF, como GSview, Xpdf o Adobe Acrobat Reader
Descargar (3MB) | Vista Previa
[img] Archivo comprimido ZIP (Anexos) - Acceso permitido solamente a usuarios en el campus de la UPM
Descargar (326MB)

Resumen

Big Data ha sido el término dado para aglomerar la gran cantidad de datos que no pueden ser procesados por los métodos tradicionales. Entre sus funciones principales se encuentran la captura de datos, almacenamiento, análisis, búsqueda, transferencia, visualización, monitoreo y modificación. Las empresas han visto en Big Data una poderosa herramienta para mejorar sus negocios en una economía mundial basada firmemente en el conocimiento. Los datos son el combustible para las compañías modernas y, por lo tanto, dar sentido a estos datos permite realmente comprender las conexiones invisibles dentro de su origen. En efecto, con mayor información se toman mejores decisiones, permitiendo la creación de estrategias integrales e innovadoras que garanticen resultados exitosos. Dada la creciente relevancia de Big Data en el entorno profesional moderno ha servido como motivación para la realización de este proyecto. Con la utilización de Java como software de desarrollo y Spring como framework web se desea analizar y comprobar qué herramientas ofrecen estas tecnologías para aplicar procesos enfocados en Big Data. De forma que, se tenga un caso teórico y práctico que sirva como base para el desarrollo e implementación de aplicaciones web más complejas. De esta forma Hadoop se ha convertido en la referencia mundial para implementar soluciones de Big Data en las grandes compañías. En este proyecto se muestran las herramientas que ofrece Spring para integrarse y facilitar el desarrollo e implementación de aplicaciones Hadoop utilizando este framework web. Adicionalmente, se muestran ejemplos prácticos en el uso de MapReduce y se enfatiza la importancia que tiene en el procesamiento de grandes cantidades de datos. En efecto, MapReduce es la base de Hadoop para aplicar Big Data. Sin embargo, para realizar análisis y en algunos casos prácticos mas complejos de Big Data, MapReduce no es la mejor solución, es por ello que se han creado herramientas que utilizando la creación de consultas similares a SQL permiten la manipulación de la data. Entre estas herramientas encontramos: Hive, Pig y HBase. Hive utiliza un sitema de consultas muy similar a SQL. Pig proporciona un lenguaje llamado Pig Latin que permite realizar Jobs MapReduce pero de alto nivel. Por último, HBase es un sistema de base de datos distributivo y no relacional dando capacidades de Bigtable. Adicionalmente, para dar soluciones Big Data en flujos de datos en tiempo real es esencial la ejecución de Jobs como procesos por lotes, es aquí en donde entra el uso de Spring Batch y Hadoop. Se muestran los mismos ejemplos practicos para Hive, Pig y HBase pero integrados con Spring Batch. Algunos de los ejemplos mostrados en este proyecto utlizan MVC y pueden ser fácilmente ampliados a soluciones API Rest si es necesario. Abstract: Big Data has been the term given to agglomerate the large amount of data that can not be processed by traditional methods. Its main functions include data capture, storage, analysis, search, transfer, visualization, monitoring and modification. Companies have seen in Big Data a powerful tool to improve their business in a global economy based firmly on knowledge. Data is the fuel for modern companies and, therefore, making sense of this data allows us to really understand the invisible connections within their origin. In fact, with better information, better decisions are made, allowing the creation of integral and innovative strategies that guarantee successful results. Given the growing relevance of Big Data in the modern professional environment has served as a motivation for the realization of this project. With the use of Java as development software and Spring as a web framework, we want to analyze and verify what tools these technologies offer to apply processes focused on Big Data. So, we have a theoretical and practical case that serves as a basis for the development and implementation of more complex web applications. In this way, Hadoop has become the world reference for implementing Big Data solutions in large companies. This project shows the tools offered by Spring to integrate and facilitate the development and implementation of Hadoop applications using this web framework. Additionally, practical examples are shown in the use of MapReduce and the importance it has in the processing of large amounts of data is emphasized. In effect, MapReduce is the basis of Hadoop to apply Big Data. However, to perform analysis and in some more complex practical cases, MapReduce is not the best solution, that is why they have created tools that using the creation of SQL-like queries allow the manipulation of data. Among these tools we find: Hive, Pig and HBase. Hive uses a query system very similar to SQL. Pig provides a language called Pig Latin that allows MapReduce Jobs but in a high level. Finally, HBase is a distributive and non-relational database system with Bigtable capabilities. Additionally, in order to provide Big Data solutions in real time data flows, the execution of Jobs as batch processes is essential, this is where the use of Spring Batch and Hadoop comes in. The same practical examples are shown for Hive, Pig and HBase but integrated with Spring Batch. Some of the examples shown in this project use MVC and can easily be extended to API Rest solutions if necessary.

Más información

ID de Registro: 53175
Identificador DC: http://oa.upm.es/53175/
Identificador OAI: oai:oa.upm.es:53175
Depositado por: Biblioteca Universitaria Campus Sur
Depositado el: 04 Dic 2018 15:48
Ultima Modificación: 04 Dic 2018 15:48
  • InvestigaM
  • GEO_UP4
  • Open Access
  • Open Access
  • Sherpa-Romeo
    Compruebe si la revista anglosajona en la que ha publicado un artículo permite también su publicación en abierto.
  • Dulcinea
    Compruebe si la revista española en la que ha publicado un artículo permite también su publicación en abierto.
  • Recolecta
  • Observatorio I+D+i UPM
  • OpenCourseWare UPM