Übergang zwischen HPC-Systemen
Es gibt drei typische Szenarien des Übergangs auf ein neues HPC System. Diese sind
- ein erster Zugang vom Arbeitsplatz-PC auf ein HPC Cluster,
- ein Übergang zwischen zwei HPC Systemen der gleichen Größenordnung in der HPC Leistungspyramide, z.B. beim Wechsel des Instituts, und
- ein Übergang von einem HPC System auf ein größeres System, z.B. um ein Forschungsvorhaben auf einem größeren Maßstab umzusetzen.
Bei jedem Übergang stellen sich Fragen zur Anpassung des Arbeitsablaufs die z.B. den Zugang, das Batch System, vorhandene Software oder Datentransfers betreffen.
Falls Sie das erste mal ein HPC System verwenden, finden Sie weitere Informationen zur Verwendung und dem Aufbau von HPC Systemen in den Einführungskursen und über unser Beratungsangebot.
Häufige Fragen
Im folgenden beantworten wir häufige Fragen für die neun Tier-3 und drei Tier-2 Standorte in Nordrhein Westfalen.
In der Tabelle der HPC.NRW Standorte werden diese Punkte noch einmal zusammengefasst.
- Tabelle der HPC.NRW Standorte
- Wie bekomme ich einen Account?
- Wo finde ich die Dokumentation des Clusters und wie erreiche ich das zuständige lokale Support Team?
- Gibt es technische Besonderheiten beim Zugang?
- Was darf ich auf dem Login Knoten tun und was gehört ins Batch System?
- Welches Batch System kommt zum Einsatz?
- Welche Hardware steht auf dem Zielsystem zur Verfügung?
- Welche Dateisysteme kommen zum Einsatz?
- Welche Software steht zur Verfügung?
- Kann ich Container verwenden?
- Welche Dienste stehen zur Verfügung (JupyterHub, Remote Desktop, ...)?
- Wie transferiere ich Daten zwischen zwei HPC Zentren?
Tabelle der HPC.NRW Standorte
Für den Zugang zu den einzelnen Standorten, folgen Sie bitte den Quick Reference Cards auf der Seite zur Beantragung von Rechenzeit
In dieser Tabelle werden die Besonderheiten des jeweiligen Zielsystems gesammelt:
Standort | Batch | Zugang | Transferservice | Software | ESSSI | Container | Dokumentation |
---|---|---|---|---|---|---|---|
Aachen | Slurm | Zugang | Upload Files to the Cluster | Modules & Software | ✓ | Apptainer | Doku |
Bielefeld | Slurm | ssh mit ssh-key | Globus endpoint, rsync, sc | Modules | - | Apptainer | Wiki-Seite (nach Anmeldung) |
Bochum | Slurm | Zugang | keinen, aber keine VPN Pflicht | Software | (geplant) | Apptainer | Doku |
Bonn | Slurm | Zugang | Wiki-Seite | EasyBuild-basiert | - | Marvin: Apptainer | Website, Wiki |
Dortmund | Slurm | Zugang | scp, rsync | Software | (geplant ab LiDO4) | vmtl Apptainer ab LiDO4 | Doku |
Duisburg-Essen | Slurm | Zugang | Data transfer | Software | - | Apptainer | Doku |
Düsseldorf | PBS | Zugang | Filesysteme einhängen & Globus Connect | Software | - | Snakemake Singularity/Apptainer | Doku |
Köln | Slurm2 | Zugang2 | scp, rsync | Software2 | - | Apptainer/Singularity | Doku2 |
Münster | Slurm | Zugang | Data Transfer | Software | (geplant) | Apptainer | Doku |
Paderborn | Slurm | Zugang | Data transfer services | Software | möglich | Apptainer, Singularity, Docker1 | Doku |
Wuppertal | Slurm | Zugang | scp, rsync | Software | ✓ | Container | Doku |
1. Indirekt
2. Dokumentation aktuell nur aus dem Netz der Universität zu Köln erreichbar
In unserem Support Bereich finden Sie die Kontaktwege zu den jeweiligen lokalen Support Teams.
Wie bekomme ich einen Account?
Der Prozess ist bei den Standorten verschieden und unterscheidet sich üblicherweise im Umfang, abhängig von der gewünschten Menge an Rechenzeit.
Hier beantworten wir alle Fragen zur Beantragung von Rechenzeit.
Wo finde ich die Dokumentation des Clusters und wie erreiche ich das zuständige lokale Support Team?
Die Links zur Dokumentation ihres HPC Systems finden Sie in der Tabelle der HPC.NRW Standorte.
In unserem Support Bereich befinden Sie außerdem Kontaktwege zu den jeweiligen lokalen Support teams.
Gibt es technische Besonderheiten beim Zugang?
HPC Systeme sind attraktive Ziele für Hacker und unterliegen deshalb häufig diversen Zugangsbeschränkungen um die Sicherheit zu erhöhen. Lokale Nutzende können das System häufig nur aus dem Universitätsnetzwerk erreichen. Alternativ ist ein VPN-Zugang nötig um das System auch außerhalb des lokalen Netzwerks zu erreichen. In manchen Fällen sind Teile des Systems komplett vom Internet entkoppelt.
Ein reiner Passwort-basierter Login kann für Verbindungen von Außerhalb, oder auch vollständig, unterbunden werden. In diesem Fall muss der öffentliche Schlüssel eines ssh-key pairs hinterlegt sein um sich einloggen zu können. Ein Zwei-Faktor-System für den Login kann ebenfalls Voraussetzung des Zugangs sein.
Details für den entsprechenden Standort entnehmen Sie bitte der Tabelle der HPC.NRW Standorte.
Was darf ich auf dem Login Knoten tun und was gehört ins Batch System?
Nutzende die erstmals ein HPC System verwenden fragen sich oft welche Arbeiten interaktiv auf dem Login Knoten erledigt werden können und welche Arbeiten vom sogenannten Batch System übernommen werden sollten.
Login Knoten sind häufig der Einstiegspunkt in des HPC System und werden von vielen Nutzenden geteilt genutzt. Das bedeutet, dass alle Arbeiten die den Login Knoten spürbar belasten vermieden werden sollten.
Das können zum Beispiel sein:
- Berechnungen und Simulationen
- Programm Kompilationen zur Vorbereitung von Berechnungen
- Umfangreiche Dateitransfers die Dateisysteme oder die Netzwerkverbindung des Login Knotens belasten
Berechnungen und andere ressourcenintensive Arbeiten gehören in der Regel in das Batch System, welches die Arbeiten aller Nutzenden nach fairen Prioritäten abarbeitet und dem weitaus mehr Ressourcen zur Verfügung stehen.
Genauere Anweisungen können sich unterscheiden, ein HPC System kann z.B. durch größere Login Knoten dafür konzipiert sein bestimmte interaktives Arbeiten zu unterstützen. Diese Anweisungen finden sich häufig in der entsprechenden Dokumentation.
Welches Batch System kommt zum Einsatz?
Das Batch System sorgt für eine faire Verteilung der vorhandenen Rechenressourcen und berücksichtigt dabei viele Parameter die die Priorität beeinflussen können.
An elf der zwölf HPC.NRW Standorte ist das Batch System aktuell über die Software Slurm realisiert. In Düsseldorf wird PBS Pro eingesetzt.
Hier sollten Sie sich darüber Informieren welche "Partitionen" oder "Queues" das HPC System anbietet und wie diese zu nutzen sind. Partitions, bzw. Queues, stellen üblicherweise eine Gruppe von Rechenknoten mit einer bestimmten Hardwarekonfiguration dar. So könnte es eine Partition/Queue für Berechnungen auf CPUs und eine Weitere für Berechnungen auf GPUs geben.
Über Partitions und Queues lassen sich aber auch exklusive Zugangsrechte für bestimmte Nutzergruppen, oder z.B. performante Netzwerkverbindungen zwischen den bestimmten Rechenknoten abbilden, wie es für Simulationen die MPI verwenden relevant sein kann.
Die Details zum Batch System und vorhandenen Partitions oder Queues befinden sich in der Tabelle der HPC.NRW Standorte.
Welche Hardware steht auf dem Zielsystem zur Verfügung?
Es ist wichtig sich zu informieren welche Hardware zur Verfügung steht. Die Details dazu befinden sich in der jeweiligen HPC System Dokumentation.
Häufig ist die erste Frage wie viele Rechenknoten es gibt und wie viele CPU-Kerne dabei pro Knoten vorhanden sind. Wie viel RAM hat jeder Knoten und wie viel RAM/CPU-Kern entspricht das? Diese Punkte beeinflussen die Anzahl von Prozessen und Threads die bei parallelen Berechnungen zum Einsatz kommen.
Das Netzwerk zwischen den Rechenknoten ist relevant bei Datentransfers und Berechnungen unter Einsatz von MPI und vergleichbaren Technologien.
Für Optimierungen ist auch relevant ob x86 CPUs (AMD oder Intel), oder ARM CPUs zum Einsatz kommen. Compiler und Programmcodes können und sollten diese Informationen berücksichtigen, damit die Berechnungen möglichst optimal durchgeführt werden.
Es stellt sich auch oft die Frage nach vorhandenen Beschleunigern, meistens GPUs (Nvidia, AMD, Intel), oder sogar FPGAs.
Zuletzt ist ein Verständnis für die vorhandenen geteilten Dateisysteme wichtig. Wo liegen Arbeitsdaten, Software, Konfigurationsdaten? Was steht auf dem Login-Knoten zur Verfügung und welche Dateisysteme sind auch für die Rechenknoten "sichtbar"?
Die Antworten auf all diese Fragen können sich bei jedem HPC System unterscheiden, jedoch gibt es häufig vergleichbare Konventionen. Konkretere Information entnehmen Sie bei jedem Wechsel aus der Dokumentation des Zielsystems.
Welche Dateisysteme kommen zum Einsatz?
Mindestens ein geteiltes Dateisystem Dient dazu die Daten zwischen den Knoten des HPC Systems zu verteilen.
Es kann auch mehrere geteilte Dateisysteme geben, und hier ist es wichtig sich zu informieren für welche Zwecke diese jeweils gedacht sind. Darf ein großer verteilter Rechenjob in starker Regelmäßigkeit auf z.B. Inputdaten zugreifen oder Outputdaten auf das Dateisystem schreiben?
Des Weiteren sollten Sie wissen wie viel Speicherplatz Ihnen jeweils zur Verfügung steht (Quota) und ob das Dateisystem regelmäßige Backups besitzt oder nicht.
Welche Software steht zur Verfügung?
HPC Systeme bieten häufig ein Modulsystem an, beispielsweise LMod, worüber Software in verschieden Version angeboten wird. Nutzende können diese Module in interaktiven Sitzungen oder in Batch Jobs laden.
Die installierte Software und Versionen können sich hierbei zwischen den HPC Zentren unterscheiden und richtet sich häufig nach dem bisherigen Bedarf der Nutzenden. Genaue Details zur vorhandenen Software entnehmen Sie ebenfalls der Tabelle der HPC.NRW Standorte.
Im Falle von lizensierter Software ist zu klären unter welchen Bedingungen vorhandene Lizenzen genutzt werden dürfen oder ob Zugang zu existierenden Lizenzservern ermöglicht werden kann. Dieser Fall ist am besten mit dem entsprechenden Support Team des HPC Systems zu klären.
Auf jedem System das Clients für das CVMFS-Dateisystem bereitstellt, gibt es außerdem die Möglichkeit Softwaremodule des EESSI Projekts zu verwenden. Diese Lösung lässt sich einfach mit dem Befehl "ls /cvfms/software.eessi.io" testen. Auf diese Weise können Sie die gleiche Softwareumgebung auf verschiedenen HPC Systemen, oder sogar Ihrem Laptop verwenden.
Falls kein CVMFS auf dem HPC System bereit gestellt wird, sind EESSI Module über Container womöglich eine Option.
Kann ich Container verwenden?
Auf HPC Systemen kommt aus technischen Gründen häufig kein Docker zum Einsatz.
Als häufigste Alternative hat sich Apptainer etabliert und darüber können in der Regel auch containerisierte Prozesse auf HPC Systemen gestartet werden.
Einige Funktionen sind allerdings durch entsprechende Einstellungen im Kernel des Host-Betriebssystems bedingt.
Ein häufiges Beispiel sind User- oder Networknamespaces, welche nicht immer zur Verfügung stehen, da Sie z.B. bei bekanntwerden einer Sicherheitslücke zeitweise deaktiviert werden müssen.
Details über die Container Nutzung entnehmen Sie bitte der Tabelle der HPC.NRW Standorte.
Welche Dienste stehen zur Verfügung (JupyterHub, Remote Desktop, ...)?
HPC Systeme bieten neben dem direkten Zugang zur Kommandozeile über SSH auch einige Web-basierte Dienste an.
Häufig gibt es eine Form des Monitorings, worüber sich die aktuelle Auslastung des gesamten Clusters und sogar die Leistung einzelner Batch Jobs - in verschiedenen Detailgraden - beobachten lässt.
Es kann auch besondere Dienste für den Dateitransfer geben. Diese erleichtern die Verwendung und ermöglichen eine bessere Performance durch das automatische Umsetzen von Best Practices.
Steht eine JupyterHub Instanz zur Verfügung, so haben Nutzende einen Zugang zu den Ressourcen des HPC Systems, um z.B. Python, Julia oder R Scripte interaktiv zu entwickeln und auszuführen.
Wie transferiere ich Daten zwischen zwei HPC Zentren?
Das HPC-Wiki bietet eine Übersicht über übliche Dateitransfer Methoden.
Der Transfer von nicht trivialen Datenmengen zwischen zwei HPC Systemen hängt allerdings von einigen Faktoren ab. Im Zweifelsfall nehmen Sie bitte Kontakt zum Support Team eines der beteiligten HPC Systeme auf um etwaige Fragen zu klären.
Diese Übersicht kann als Orientierung dienen:
- Ist die eine direkte SSH Verbindung zum Zielsystem möglich?
- Dann verwenden Sie Tools wie z.B. scp, rsync, rclone etc.
- Ist eine VPN Verbindung zum Ziel nötig und es geht um kleine Datenmengen? (z.B. <1 GB)
- Aktivieren Sie die VPN Verbindung auf Ihrem Laptop oder Arbeitsplatz PC
- Das Quellen-System sollte direkt zugreifbar sein, z.B. indem Sie sich im Universitätsnetzwerk befinden
- Dann können Sie die Daten ebenfalls mit scp, rsync, rclone, etc. transferieren
- Große Datenmengen benötigen eine direkte Verbindung zwischen beteiligten HPC Systemen.
- Das ist bedingt durch Netzwerkdurchsatz und der Dauer des Vorgangs
- Hier folgen Sie bitte den Anweisungen aus der Dokumentationen der HPC Systeme, oder nehmen Kontakt zu einem der lokalen Support Teams auf.
- Möglicherweise gibt es einen extra Transferdienst, wie z.B. Globus Connect oder andere Lösungen, die für diesen Zweck gedacht sind