Sistema de recuperación automática de un supercomputador con arquitectura de cluster

Morales del Olmo, Juan (2008). Sistema de recuperación automática de un supercomputador con arquitectura de cluster. Trabajo Fin de Grado / Proyecto Fin de Carrera, Facultad de Informática (UPM) [antigua denominación], Madrid, ES.

Descripción

Título: Sistema de recuperación automática de un supercomputador con arquitectura de cluster
Autor/es:
  • Morales del Olmo, Juan
Director/es:
  • Miguel Anasagasti, Pedro de
  • Cubo Medina, Óscar
Tipo de Documento: Trabajo Fin de Grado o Proyecto Fin de Carrera
Fecha: Septiembre 2008
Materias:
ODS:
Escuela: Facultad de Informática (UPM) [antigua denominación]
Departamento: Arquitectura y Tecnología de Sistemas Informáticos
Licencias Creative Commons: Reconocimiento - Sin obra derivada - No comercial

Texto completo

[thumbnail of PFC_JUAN_MORALES_DEL_OLMO.pdf]
Vista Previa
PDF (Portable Document Format) - Se necesita un visor de ficheros PDF, como GSview, Xpdf o Adobe Acrobat Reader
Descargar (3MB) | Vista Previa

Resumen

El continuo aumento de las necesidades de cómputo de la comunidad científica está ocasionando la proliferación de centros de supercomputación a lo largo del mundo. Desde hace unos años la tendencia es ha utilizar una arquitectura de cluster para la construcción de estas máquinas. Precisamente la UPM cuenta con uno de estos computadores. Se trata de Magerit, el segundo supercomputador más potente de España que se encuentra alojado en el CeSViMa y que alcanza los 16 TFLOPS. Los nodos de cómputo de un sistema de estas características trabajan exhaustivamente casi sin descanso, por eso es frecuente que vayan sufriendo problemas. Las tareas de reparación de nodos consumen mucho tiempo al equipo de administración de CeSViMa y no existen herramientas que agilicen estas labores. El objetivo de este proyecto es dotar de cierta autonomía a Magerit para que pueda recuperar de forma automática sus nodos de cómputo sin la intervención de los administradores del sistema. Al final de este proyecto se obtendrá un sistema software inédito que controlará y mantendrá el buen funcionamiento de los nodos de cómputo de un cluster formado por más de 1200 máquinas.

Más información

ID de Registro: 1175
Identificador DC: https://oa.upm.es/1175/
Identificador OAI: oai:oa.upm.es:1175
Depositado por: Archivo Digital UPM
Depositado el: 06 Oct 2008
Ultima Modificación: 20 Abr 2016 06:43