Diseño e implementación de estimadores distribuidos para grandes conjuntos de datos

Martín Vegas, Javier (2017). Diseño e implementación de estimadores distribuidos para grandes conjuntos de datos. Proyecto Fin de Carrera / Trabajo Fin de Grado, E.T.S.I. y Sistemas de Telecomunicación (UPM), Madrid.

Description

Title: Diseño e implementación de estimadores distribuidos para grandes conjuntos de datos
Author/s:
  • Martín Vegas, Javier
Contributor/s:
  • Luengo García, David
Item Type: Final Project
Degree: Grado en Ingeniería de Sonido e Imagen
Date: 24 April 2017
Subjects:
Freetext Keywords: Big data Estadística bayesiana
Faculty: E.T.S.I. y Sistemas de Telecomunicación (UPM)
Department: Teoría de la Señal y Comunicaciones
Creative Commons Licenses: Recognition - No derivative works - Non commercial

Full text

[img]
Preview
PDF - Requires a PDF viewer, such as GSview, Xpdf or Adobe Acrobat Reader
Download (2MB) | Preview
[img] Archive (ZIP) (Anexos) - Users in campus UPM only
Download (15MB)

Abstract

En el presente proyecto, titulado “Diseño e implementación de estimadores distribuidos para grandes conjuntos de datos”, se busca un objetivo claro: el tratamiento de grandes conjuntos de datos, ampliamente conocidos como Big Data. Partiendo de una introducción en la que se explica el estado actual del Big Data, se describirá la base matemática que se necesita para comprender y desarrollar algoritmos que permitan extraer información y valor de los grandes conjuntos de datos. Este proyecto tiene su punto inicial en la explicación de la aparición del Big Data y su importancia en los diferentes ámbitos de la vida. Es decir, se hace un análisis de la situación del Big Data hoy en día en el que se explica la historia que rodea a este concepto, además de las aplicaciones que surgen a partir de la investigación con grandes conjuntos de datos. Seguidamente el proyecto toma la dirección hacia su objetivo principal: aplicar herramientas matemáticas y estadísticas para llevar a cabo análisis de Big Data. Para ello se explican algunos conceptos que marcarán los puntos de partida: la estimación Bayesiana, los métodos de Monte Carlo, el algoritmo de aceptación y rechazo o la computación en paralelo. Una vez explicadas estas herramientas, se pondrán en práctica en los Capítulos 4, 5 y 6. Cada uno de estos capítulos considera problemas distintos, pero el punto de partida en todos los casos consiste en disponer de una serie de información y de parámetros que caracterizan a un gran conjunto de datos. A partir de estos conjuntos de datos se realizarán estimaciones mediante algoritmos implementados por el autor. Para la implementación de los mismos se utiliza el software matemático Matlab. Continuamente se harán referencias al código para que el lector pueda seguir paralelamente el código del algoritmo y la explicación teórica. Por otra parte, cabe destacar que los conjuntos de datos, a partir de los cuales se llevarán a cabo estimaciones y análisis, son conjuntos de datos sintéticos. Es decir, son generados por el autor y tienen unas características determinadas según el caso práctico que estemos ejecutando. Es destacable que los casos prácticos se corresponden con modelos matemáticos determinados. Para la implementación de los algoritmos de análisis de conjuntos de datos es necesaria una base estadística que permita entender la situación de la que se parte en cada caso práctico. Algunos modelos que son vistos son el modelo binomial y el modelo mutivariable Gaussiano. En cada capítulo práctico se explica la situación de partida y se da una pequeña explicación matemática que permita entender los problemas que se presentan, de modo que se pueda seguir el desarrollo del algoritmo. En el primer caso práctico se realizará la estimación del valor de una resistencia y se implementará el algoritmo de Metropolis-Hastings, muy utilizado en inferencia Bayesiana. En el segundo se afrontará un caso de distribución binomial, en el que se llevará a cabo la estimación de los parámetros que la caracterizan. Por último, se afrontará un caso multivariable y se explicará un método para la corrección del sesgo en estas estimaciones. Este método es conocido como método Jackknife. Cabe destacar que los resultados obtenidos en los casos considerados en este proyecto son óptimos. Realizando comparaciones con artículos que se referenciarán a lo largo del texto se puede estar satisfecho acerca del rendimiento de los algoritmos. Abstract: The present project, entitled “Design and implementation of distributed estimators for Big Data applications” has a clear goal: the introdution to analysis of big data sets commonly known as Big Data. From an introduction in which the currently state of Big Data is explained, the next step would be the explanation of the mathematical tools needed to understand and to implement the algorithms used for extracting value from the data sets. The starting point is the history of Big Data, i. e., the birth of Big Data, all the concepts that it involves, and the influence it has in all aspects of life. Apart from explaining the history of Big Data, some real applications will be shown in this project. Straightaway, this work focuses on its main objective: to explain the mathematical and statistical tools needed for analyzing big datasets. For achieving this goal some concepts will be explained: Bayesian estimation, Monte Carlo methods, the accept-reject algorithm and parallel computing. Once that these concepts have been explained, we will put them into practice in Chapter 3. Each of those chapters considers different problems, but, the starting point is the same: a dataset and the parameters which characterize that dataset. Using this information, we will carry out estimation by using algorithms that will be implemented with a mathematical software called Matlab. References to the code will be made constantly in the text, so that the reader can follow the algorithm´s code and its theoretical explanation. On the other hand, it should be noted that the datasets used for making estimations will be synthetic data (no real data). That is, they will generated by the author and they will have their special characteristics according to the practical case that we are facing. Each practical example will have its mathematical explanation. For this reason, it is necessary to have a statistical knowledge in order to be able to understand the starting point of each algorithm. Some of the statistical models being used here are the binomial model and the Gaussian multivariate model. In each chapter, the starting point will be explained. Also a mathematical introduction will be attached in order to understand the problem. In the firt case, we will estimate a resistor value and the Metropolis Hastings Algorithm will be detailed. This algorithm is widely used in Bayesian inference. For the second case we will face a binomial issue. We will estimate the paremeters that characterize that model. Finally, we will analyse a multivariate case. This model will have a problem associated: Bias. The Jackknife method will be explained and will be used to obtain a solution for this problem. We have to underline that the results obtained are optimal. Making some comparisons to the papers referenced in this problem, we have to stand out the satisfaction with these algorithms.

More information

Item ID: 52705
DC Identifier: http://oa.upm.es/52705/
OAI Identifier: oai:oa.upm.es:52705
Deposited by: Biblioteca Universitaria Campus Sur
Deposited on: 22 Oct 2018 05:28
Last Modified: 22 Oct 2018 12:50
  • Logo InvestigaM (UPM)
  • Logo GEOUP4
  • Logo Open Access
  • Open Access
  • Logo Sherpa/Romeo
    Check whether the anglo-saxon journal in which you have published an article allows you to also publish it under open access.
  • Logo Dulcinea
    Check whether the spanish journal in which you have published an article allows you to also publish it under open access.
  • Logo de Recolecta
  • Logo del Observatorio I+D+i UPM
  • Logo de OpenCourseWare UPM