Distributed systems failure management through applied machine learning

Navarro González, José Manuel (2018). Distributed systems failure management through applied machine learning. Thesis (Doctoral), E.T.S.I. Telecomunicación (UPM). https://doi.org/10.20868/UPM.thesis.51350.

Description

Title: Distributed systems failure management through applied machine learning
Author/s:
  • Navarro González, José Manuel
Contributor/s:
  • Dueñas López, Juan Carlos
Item Type: Thesis (Doctoral)
Date: June 2018
Subjects:
Faculty: E.T.S.I. Telecomunicación (UPM)
Department: Ingeniería de Sistemas Telemáticos [hasta 2014]
Creative Commons Licenses: Recognition - No derivative works - Non commercial

Full text

[img]
Preview
PDF - Requires a PDF viewer, such as GSview, Xpdf or Adobe Acrobat Reader
Download (3MB) | Preview

Abstract

Esta tesis trata el problema de la gestión de los fallos en sistemas distribuidos, especialmente en redes de ordenadores y clusters de computación de alto rendimiento. En ella, expongo y analizo la importancia de éste problema y cómo las investigaciones actuales son extensas pero fragmentadas y aisladas, con un enfoque demasiado estrecho. Especialmente, hay un vacío de conocimiento entre los problemas académicos y los problemas industriales. Además, la necesidad de un experto humano y todas las tareas que esto conlleva es algo que no se ha tratado en profundidad. Partiendo de esta situación, tomo dos conjuntos de datos reales: uno público, que contiene los errores ocurridos en un supercomputador en Los Álamos, EE. UU., y el otro obtenido de una red de ordenadores de un banco español, que detalla eventos extraídos de un gestor comercial de red. Con ellos, propongo cuatro contribuciones diferentes: un estudio detallado de un conjunto de algoritmos de Aprendizaje Automático, un método novedoso de optimización que permite decidir qué periódo temporal observar para realizar predicción de fallos, una manera de extraer causas de errores potenciales de los mismos modelos de predicción y una implementación práctica de estos conceptos utilizando software Big Data. Los resultados muestran que mis propuestas son capaces de conseguir soluciones exitosas con una interacción humana mínima, además de satisfacer los requerimientos y limitaciones técnicas. ----------ABSTRACT---------- This thesis deals with the problem of managing failures on distributed systems, specially on computer networks and high performance computing clusters. Through it, I expose and analyze the importance of the problem and how its current research landscape, while extensive, is fragmented, isolated and takes a too narrow approach. Specially, there is a gap of knowledge between academic and industrial problems and the need for a human expert and all of the problems that this entails have been overlooked. Based on this situation, I take two real datasets, a public one, detailing errors occurred on a supercomputer at Los Alamos, USA, and the other obtained from a Spanish bank’s computer network, containing events extracted from a commercial network manager. With them, I propose four different contributions: a detailed study of an array of Machine Learning models, a novel optimization method to decide which time period to observe in the past to perform future prediction, a way to extract potential error causes from the prediction models and a practical implementation of these concepts utilizing Big Data software. Results show that my proposals are able to achieve successful solutions with minimal human interaction needed and satisfying technical requirements and limits.

Funding Projects

TypeCodeAcronymLeaderTitle
Government of SpainTIN2014-56158-C4-3-PM2C2UnspecifiedUnspecified

More information

Item ID: 51350
DC Identifier: http://oa.upm.es/51350/
OAI Identifier: oai:oa.upm.es:51350
DOI: 10.20868/UPM.thesis.51350
Deposited by: Archivo Digital UPM 2
Deposited on: 18 Sep 2018 06:48
Last Modified: 18 Mar 2019 23:30
  • Logo InvestigaM (UPM)
  • Logo GEOUP4
  • Logo Open Access
  • Open Access
  • Logo Sherpa/Romeo
    Check whether the anglo-saxon journal in which you have published an article allows you to also publish it under open access.
  • Logo Dulcinea
    Check whether the spanish journal in which you have published an article allows you to also publish it under open access.
  • Logo de Recolecta
  • Logo del Observatorio I+D+i UPM
  • Logo de OpenCourseWare UPM