Kompetenznetzwerk für Betriebsfragen

Ein Kompetenznetzwerk zu Betriebsfragen wurde durch folgende Maßnahmen etabliert:

  • Einrichtung eines NRW-weiten HPC-Helpdesk als 3rd-Level Support an den sich Rechnzentrumsmitarbeitende bei lokal nicht lösbaren Problemen wenden können. Eine zielgerichtete Problemlösung wird durch monatlich wechselnde verantwortliche Standorte als Koordinatoren gewährleistet.
  • Entwicklung von Best-Practice Guides zu Fragen des Rechnerbetriebs.
  • Koordination eines intensiven Austauschs zwischen Rechenzentren in NRW zu vielen technischen Fragestellungen:
    • über die Mailingliste (Stand Sommer 2020: mehr als 550 Mails, mehr als 55 Mitglieder)
    • per Videokonferenzen (Stand Sommer 2020: durchschnittlich 4 pro Monat, je min. 1h, Anwesenheit nach Standorten etwa 80%)
    • wichtigste Themen waren in 2020:
      • HPC-Sicherheitsvorfall und Sicherheit von HPC-Systemen
      • Datentransfer zwischen HPC-Zentren
      • Softwarebeschaffung
      • Nutzungsbedingungen von Rechenzentren
      • Job-Scheduling
      • Videokonferenzsysteme
    • Organisation von themenspezifischer Videokonferenzen zu Fragen des Rechnerbetriebs, z.B High-Availability und Failover für Job-Scheduling mit Slurm
  • HPC-Admintage NRW: Ein wichtiges Element des Kompetenznetzwerkes zu Betriebsfragen ist der persönliche Austausch zwischen Kollegen im Rahmen der HPC-Admintage NRW:
    • HPC-Admintag Bonn 03.07.19 mit Hauptthema "HPC-Dateisysteme und Container"
    • HPC-Admintag Dortmund 29.10.19 mit Hauptthema "Heterogene Systeme und CPU-Architekturen"
    • virtueller HPC-Admintag Bochum 02.07.20 (verschoben vom 26.03.20) mit Hauptthema "HPC-Sicherheit"
    • virtueller HPC-Admintag am 27.10.20 mit Hauptthema "Betriebsmodelle und Betriebskonzepte von Clustern"

Vor allem der HPC-Sicherheitsvorfall im Frühjahr 2020 hat wieder gezeigt, dass einen Kommunikation und Koordinierung über die Grenzen von Bundesländern hinaus notwendig ist. Deshalb setzt sich HPC.NRW für den deutschlandweiten und internationalen Austausch im Kontext von HPC-Betrieb zum Beispiel durch

  • Etablierung von Kommunikationsplattformen wie der Einrichtung eines geschützten Bereiches im HPC-Wiki zur zentralen Diskussion von HPC-Betriebsthemen wie Datenaustauch zwischen HPC-Zentren auf nationaler und internationaler Ebene,
  • Vorträge von Mitgliedern von HPC.NRW bei HPC-Konferenzen wie zum Beispiel den Tagungen des Arbeitskreises Supercomputing des ZKI,
  • und kollaborative Entwicklung und Definition von Best-Practice Guides für Rechnerbetrieb ein.