Citation
Morales del Olmo, Juan
(2008).
Sistema de recuperación automática de un supercomputador con arquitectura de cluster.
Proyecto Fin de Carrera / Trabajo Fin de Grado, Facultad de Informática (UPM), Madrid, ES.
Abstract
El continuo aumento de las necesidades de cómputo de la comunidad científica está ocasionando la proliferación de centros de supercomputación a lo largo del mundo. Desde hace unos años la tendencia es ha utilizar una arquitectura de cluster para la construcción de estas máquinas. Precisamente la UPM cuenta con uno de estos computadores. Se trata de Magerit, el segundo supercomputador más potente de España que se encuentra alojado en el CeSViMa y que alcanza los 16 TFLOPS. Los nodos de cómputo de un sistema de estas características trabajan exhaustivamente casi sin descanso, por eso es frecuente que vayan sufriendo problemas. Las tareas de reparación de nodos consumen mucho tiempo al equipo de administración de CeSViMa y no existen herramientas que agilicen estas labores. El objetivo de este proyecto es dotar de cierta autonomía a Magerit para que pueda recuperar de forma automática sus nodos de cómputo sin la intervención de los administradores del sistema. Al final de este proyecto se obtendrá un sistema software inédito que controlará y mantendrá el buen funcionamiento de los nodos de cómputo de un cluster formado por más de 1200 máquinas.