Análisis, implementación y despliegue de un entorno de computación distribuida en contenedores

Escudero Sarabia, Javier (2020). Análisis, implementación y despliegue de un entorno de computación distribuida en contenedores. Proyecto Fin de Carrera / Trabajo Fin de Grado, E.T.S. de Ingenieros Informáticos (UPM), Madrid, España.

Description

Title: Análisis, implementación y despliegue de un entorno de computación distribuida en contenedores
Author/s:
  • Escudero Sarabia, Javier
Contributor/s:
  • Eibe García, Santiago
Item Type: Final Project
Degree: Grado en Ingeniería Informática
Date: July 2020
Subjects:
Faculty: E.T.S. de Ingenieros Informáticos (UPM)
Department: Lenguajes y Sistemas Informáticos e Ingeniería del Software
Creative Commons Licenses: Recognition - No derivative works - Non commercial

Full text

[img]
Preview
PDF - Requires a PDF viewer, such as GSview, Xpdf or Adobe Acrobat Reader
Download (657kB) | Preview

Abstract

Los sistemas y servicios que usamos con normalidad en nuestro día a día generan datos sobre la interacción del usuario que los está utilizando. Teniendo en cuenta que cada usuario puede utilizar más de un sistema o servicio, la cantidad de datos generados por un único usuario adquiere un tamaño considerable. En los últimos años la cantidad de sistemas y servicios que utilizamos ha crecido exponencialmente, lo que significa un aumento exponencial de la cantidad de datos generados por cada usuario de forma individual [2] . Estos datos generados son de gran importancia para los propietarios de los sistemas, normalmente se trata de una empresa, para la mejora de sus servicios y el análisis de sus usuarios. La recolección de los datos generados por todos los usuarios significa un volumen masivo de datos que requiere una limpieza, filtrado, procesamiento y almacenamiento de los datos para su posterior utilización por parte de la empresa. Las empresas hacen uso de sistemas que les permiten el análisis de esos grandes volúmenes de datos, extrayendo información de utilidad para dar soporte a su proceso de toma de decisiones. Un tratamiento incorrecto de los datos puede resultar en información errónea ocasionando que la empresa realice una mala decisión que no favorezca su línea de trabajo y pueda ocasionar en un futuro problemas mayores. Esta situación se ve reflejada en los estudios realizados en el ámbito del marketing, donde la estrategia más beneficiosa es promover las campañas que más éxito tienen entre los usuarios y posibles clientes. Estos sistemas están orientados al análisis y al manejo de grandes cantidades de datos procedentes de todos los servicios que pertenezcan a la empresa. El tratamiento de esas cantidades de datos requiere de un tiempo determinado, pudiendo llegar a ser excesivo al sobrepasar la capacidad del software convencional para procesarlas en un tiempo razonable. Este retraso en el procesamiento de los datos impide a la empresa contar con una perspectiva fiable del estado actual de sus servicios para el proceso de toma de decisiones. Las empresas que requieren un análisis de los datos en tiempo real para realizar decisiones de negocio, como puede ser mostrar información personalizada basada en la interacción del usuario con el sistema o el envío de contenido de interés en base a su interacción con el servicio, y tienen la necesidad de reducir el tiempo de recolección y procesamiento continúo empleado por estos sistemas hasta lograr un tiempo lo más similar posible al procesamiento continuo de los datos en tiempo real. [1] La solución implementada en este trabajo de fin de grado pretende resolver la problemática del procesamiento continuo de grandes cantidades de datos en tiempo real, expuesta anteriormente. Para lograr este objetivo se ha implementado un entorno de computación distribuida basado en tecnología de contenerización. El entorno de computación distribuida es la solución al problema del procesamiento de grandes cantidades de datos en un tiempo razonable, debido a la gran capacidad de cómputo que este sistema puede conseguir. La solución también cuenta con una plataforma de computación de grandes cantidades de datos complementaria al entorno que permite el procesamiento ii de los datos de forma continua. La recolección de los datos por parte de la solución se realiza mediante un servicio de mensajería distribuida que posibilita la recepción de los datos en tiempo real. El almacenamiento de la información obtenida se lleva a cabo mediante una herramienta de almacenamiento distribuido que permite la lectura, escritura y gestión de grandes cantidades de datos mediante un lenguaje de consulta de datos. Como característica adicional, la solución cuenta con una gran portabilidad y escalabilidad al estar basada en tecnología de contenerización. La solución implementada en este trabajo de fin de grado tiene como objetivo resolver la problemática expuesta al conseguir un procesamiento continuo de grandes volúmenes de datos en tiempo real.---ABSTRACT---IT services and programs we use daily generates data about the user that interacts with them. Knowing that an average user can interact with multiple numbers of services, the data generated by a unique user gets a considerable size. In the last few years, the amount of services and programs that we use has increased in an exponential way that means exponential growth of the data generated by every user individually. [2] These generated data are of great interest to the service owners, usually a company, to upgrade their systems and analyze their users. The harvest of users generated data means a massive volume of data that requires data cleaning, filtering, processing, and storage so they can be of use to the company. Companies use systems that allow them to analyze this massive data volume, extracting useful information to support their business decision process. Erroneous data processing can result in incorrect information, leading the company to make bad business decisions and will cause in the future bigger problems. This situation is present in the studies developed in the marketing field, where the more beneficial strategy is to promote the most successful campaigns between the users and future clients. These systems are analysis and massive data processing oriented used with all the data harvested from every company service and the ones susceptible to be analyzed. The processing of that amount of data requires considerable time, being able to turn excessive, overwhelming the capacity of conventional software to process it in a reasonable time. These delay in the data processing keeps the company from seeing a trustful perspective of the current state of their services for the business decision process. Companies that require a real-time data analysis to make their business decisions, like show personalized information based on user interaction with the system or the delivery of content of interest based on their interaction with the service, have the need of reducing the data harvesting and data continuous processing time of these systems to be the closest to continuous real-time data processing. [1] The system implemented at this end of degree project aims to solve the problem of continuous data processing in real-time previously exposed. To achieve this goal has been developed a distributed computation system based on container technology. This distributed computation system is the solution to processing the massive amount of data in a reasonable time, thanks to the computation capacity this system can achieve. This system also has a complementary computation platform for massive amounts of data that allows continuous data processing. The system harvesting of the data is performed using a distributed messaging system that enables data reception in real-time. The storage of the obtained information is made by a distributed storage platform that allows read, write, and managing large sets of data using a data query language. iv As an additional feature, the system has high portability and scalability for being based on container technology. The system implemented at this end of degree project has as purpose solving the problem previously exposed by achieving continuous processing of massive amounts of data in real-time.

More information

Item ID: 63339
DC Identifier: http://oa.upm.es/63339/
OAI Identifier: oai:oa.upm.es:63339
Deposited by: Biblioteca Facultad de Informatica
Deposited on: 29 Jul 2020 19:41
Last Modified: 29 Jul 2020 19:41
  • Logo InvestigaM (UPM)
  • Logo GEOUP4
  • Logo Open Access
  • Open Access
  • Logo Sherpa/Romeo
    Check whether the anglo-saxon journal in which you have published an article allows you to also publish it under open access.
  • Logo Dulcinea
    Check whether the spanish journal in which you have published an article allows you to also publish it under open access.
  • Logo de Recolecta
  • Logo del Observatorio I+D+i UPM
  • Logo de OpenCourseWare UPM