Sistema de recuperación automática de un supercomputador con arquitectura de cluster

Morales del Olmo, Juan (2008). Sistema de recuperación automática de un supercomputador con arquitectura de cluster. Proyecto Fin de Carrera / Trabajo Fin de Grado, Facultad de Informática (UPM) [antigua denominación], Madrid, ES.

Descripción

Título: Sistema de recuperación automática de un supercomputador con arquitectura de cluster
Autor/es:
  • Morales del Olmo, Juan
Director/es:
  • Miguel Anasagasti, Pedro de
  • Cubo Medina, Óscar
Tipo de Documento: Proyecto Fin de Carrera/Grado
Fecha: Septiembre 2008
Materias:
Escuela: Facultad de Informática (UPM) [antigua denominación]
Departamento: Arquitectura y Tecnología de Sistemas Informáticos
Licencias Creative Commons: Reconocimiento - Sin obra derivada - No comercial

Texto completo

[img]
Vista Previa
PDF (Document Portable Format) - Se necesita un visor de ficheros PDF, como GSview, Xpdf o Adobe Acrobat Reader
Descargar (3MB) | Vista Previa

Resumen

El continuo aumento de las necesidades de cómputo de la comunidad científica está ocasionando la proliferación de centros de supercomputación a lo largo del mundo. Desde hace unos años la tendencia es ha utilizar una arquitectura de cluster para la construcción de estas máquinas. Precisamente la UPM cuenta con uno de estos computadores. Se trata de Magerit, el segundo supercomputador más potente de España que se encuentra alojado en el CeSViMa y que alcanza los 16 TFLOPS. Los nodos de cómputo de un sistema de estas características trabajan exhaustivamente casi sin descanso, por eso es frecuente que vayan sufriendo problemas. Las tareas de reparación de nodos consumen mucho tiempo al equipo de administración de CeSViMa y no existen herramientas que agilicen estas labores. El objetivo de este proyecto es dotar de cierta autonomía a Magerit para que pueda recuperar de forma automática sus nodos de cómputo sin la intervención de los administradores del sistema. Al final de este proyecto se obtendrá un sistema software inédito que controlará y mantendrá el buen funcionamiento de los nodos de cómputo de un cluster formado por más de 1200 máquinas.

Más información

ID de Registro: 1175
Identificador DC: http://oa.upm.es/1175/
Identificador OAI: oai:oa.upm.es:1175
Depositado por: Archivo Digital UPM
Depositado el: 06 Oct 2008
Ultima Modificación: 20 Abr 2016 06:43
  • Open Access
  • Open Access
  • Sherpa-Romeo
    Compruebe si la revista anglosajona en la que ha publicado un artículo permite también su publicación en abierto.
  • Dulcinea
    Compruebe si la revista española en la que ha publicado un artículo permite también su publicación en abierto.
  • Recolecta
  • e-ciencia
  • Observatorio I+D+i UPM
  • OpenCourseWare UPM