CLAIX-2025 – Inbetriebnahme in Sicht?!

Es ist Frühjahr 2026 – was fehlt am IT Center der RWTH Aachen? Das HPC-System CLAIX-2025 ist noch nicht im Produktionsbetrieb! Im Rahmen des bewährten 1-Cluster-Konzepts soll CLAIX-2025 auf der Tier-2-Ebene das bestehende System CLAIX-2023 ergänzen. Wir haben mit unseren HPC-Experten am IT Center gesprochen, wieso es zu der Verzögerung der Inbetriebnahme kommt und wie der aktuelle Stand ist. Sascha Bücken, Gruppenleiter „Server, Storage, HPC“, Tim Cramer, Gruppenleiter „HPC CORE“ und Christian Terboven, Chief HPC Officer, beantworten die Frage, die Forschende an der RWTH Aachen und in ganz Deutschland beschäftigt:

 

Wann geht CLAIX-2025 in Betrieb?

Christian Terboven: In aller Kürze: Aktuell planen wir mit einer Inbetriebnahme wesentlicher Teile des Systems bis Ende April 2026.
 

Und nun zu den Details hinter der Verzögerung. Wann war die Inbetriebnahme von CLAIX-2025 geplant?

Sascha Bücken: Ursprünglich war die CLAIX-2025-Inbetriebnahme erst für dieses Jahr geplant. CLAIX-2025 besteht aus zwei Segmenten: dem klassischen HPC-Segment, das im März 2026 an den Start gehen sollte und das Segment für das maschinelle Lernen (ML), das im Juni 2026 abgenommen werden soll. Wenn wir uns diesen ursprünglichen und vertraglich vereinbarten Zeitplan anschauen, liegen wir sogar akzeptabel in der Zeit! Jedoch hatten wir in der frühen Phase des CLAIX-2025-Aufbaus gedacht, dass wir das System früher – vor Ende 2025 – in Betrieb nehmen können. Dies haben wir an unsere Nutzenden kommuniziert und sind bis in das 4. Quartal 2025 auch davon ausgegangen, dass dieses ambitionierte Ziel erreicht werden kann.
 

Woran liegt es, dass dieser neue Zeitplan nicht funktioniert hat?

Christian Terboven: CLAIX-2025 ist eines der weltweit ersten HPC-Systeme, das mit dem Cornelis CN5000 HPC-Interconnect ausgeliefert wurde. Zwar handelt es sich hierbei um die Nachfolgetechnologie von Omni-Path, das jedoch signifikant überarbeitet wurde. Deswegen musste auch unsere Umgebung an vielen Stellen noch angepasst und teilweise entwickelt werden. Auch die Stabilität des Netzwerks musste in den Wochen des Testbetriebs erst hergestellt werden, bevor wir mit den Abnahmebenchmarks und Anwendungen von Nutzenden beginnen konnten, die für die Abnahme nötig sind.

Tim Cramer: Außerdem gab es vorher bereits unerwartete Lieferverzögerungen – konkret bei der Einfuhr von Komponenten in die EU – bei der Warmwasserkühlung: Das System wird mit einer Warmwasserkühlung betrieben, für die es einer sogenannten CDU (Cooling Distribution Unit) bedarf. Diese CDU konnte erst im März 2026 geliefert werden.
 

Wo befinden wir uns aktuell im Prozess der Inbetriebnahme?

Sascha Bücken: Aktuell werden die zugesagten Performancewerte durch eigene Benchmarks verifiziert. Im Bereich der klassischen HPC-Knoten wurden diese inzwischen erreicht und bestätigt. Bei der Kombination aus dem neuen CN5000-Netzwerk und den GPU-Komponenten des ML-Segments gibt es aktuell noch bei einzelnen Tests die Herausforderung, die benötigten Treiber- und Softwarekomponenten optimal aufeinander abzustimmen, um so auch in dem Bereich die geforderte und zugesagte Performance zu erreichen.
 

Welche Schritte stehen noch an, bis es zur Inbetriebnahme kommt?

Christian Terboven: Wenn die Performancewerte im Bereich des maschinellen Lernens erreicht wurden, müssen die Messungen noch mit den Energiewerten während der Messungen übereinandergelegt werden. Auf dieser Basis wird der Total Cost of Ownership und damit die Leistungsfähigkeit bei eingesetzter Energie bewertet. Außerdem muss die große CDU in Betrieb genommen werden, um die temporären CDUs zu ersetzen.
 

Und bis Ende April soll das der Fall sein?

Sascha Bücken: Die erste „Abnahme mit Mängeln“ ist zeitnah nach der Bestätigung aller Benchmark-Werte geplant. it dieser können wir Nutzende auf wesentliche Teile des Systems lassen und somit einen Teilproduktionsbetrieb ermöglichen. Mit dem Tausch der CDU erreicht das System seine volle Leistungsfähigkeit, da erst dann alle Komponenten ausreichend gekühlt werden können. Dieser Schritt wird derzeit gegen Mitte/ Ende April 2026 erwartet.
 

Was bedeutet das aktuell für die Nutzenden?

Tim Cramer: Das führt leider zu längeren Wartezeiten – sowohl im HPC- als auch im ML-Segment – als unsere Nutzenden gewohnt sind. Da wir gesehen haben, dass unsere Nutzenden mehr Rechenkapazität benötigen, haben wir versucht CLAIX-2025 so schnell wie möglich an den Start zu bringen und alle Lieferanten haben im Rahmen des Möglichen daran mitgewirkt. CLAIX-2023 ist aktuell überbucht. Hier sind wir dran: Durch Änderungen am Slurm haben wir beispielsweise an einer höheren Fairness bei den Wartezeiten gearbeitet. Leider behebt das natürlich nicht das Problem der fehlenden Ressourcen. Wir können hier aktuell nur um Geduld bitten! Wenn CLAIX-2025 dann in Betrieb geht, verdreifacht sich im Tier-2 das HPC-Segment und wir können den Nutzenden die benötigte Rechenzeitkapazität bieten!
 

Was erwartet die Nutzenden?

Christian Terboven: CLAIX-2025 wird eine signifikante zusätzliche CPU-Rechenleistung bringen, um den Bereich der traditionellen HPC-Simulationen zu stärken. Darüber hinaus wird mit einer gezielten Erweiterung im Bereich maschinelles Lernen ein wichtiger Schritt getan. CLAIX-2025 wurde nicht nur als Antwort auf steigenden Bedarf konzipiert, sondern als strategische Investition in das datengetriebene wissenschaftliche Arbeiten von morgen.

Wir halten euch über die weiteren Entwicklungen rund um die Inbetriebnahme von CLAIX-2025 auf dem Laufenden. Bei Fragen oder Problemen steht euch das Team des IT-ServiceDesk zur Verfügung.

Weitere Informationen über den CLAIX erhaltet ihr in unseren vergangenen Blogbeiträgen oder auf der HPC-Landingpage.

Icon FAQFAQ
Icon KontaktKontakt
Icon SucheSuche