Fortschrittliche Netzwerkinfrastruktur für KI und HPC: Der Ultra Ethernet Standard

Kategorien:
No items found.
Freigegeben:
September 11, 2024

Neue Ethernet-Spezifikation für KI-Cluster: Ein Blick auf den Ultra Ethernet Standard

Einleitung

Die stetig zunehmende Bedeutung von Künstlicher Intelligenz (KI) und Hochleistungsrechnen (HPC) stellt immer höhere Anforderungen an die Netzwerkinfrastruktur. Um diesen Herausforderungen gerecht zu werden, arbeitet das Ultra Ethernet Consortium (UEC) an einer neuen Ethernet-Spezifikation, die speziell für KI-Cluster und HPC entwickelt wurde. Diese neue Spezifikation könnte die Art und Weise, wie KI-Workloads gehandhabt werden, revolutionieren.

Hintergrund und Ziele des Ultra Ethernet Consortiums

Das Ultra Ethernet Consortium (UEC) wurde von führenden Technologieunternehmen wie AMD, Arista, Broadcom, Cisco, HPE, Intel, Meta, und Microsoft gegründet. Ziel des Konsortiums ist es, einen neuen Ethernet-Standard zu entwickeln, der die Anforderungen moderner KI- und HPC-Anwendungen erfüllt. Die Leitung des Konsortiums übernimmt die Linux Foundation, die für ihre Expertise im Bereich Open-Source-Technologien bekannt ist.

Die Ultra Ethernet Transport (UET) Spezifikation

Im Zentrum der neuen Spezifikation steht das Ultra Ethernet Transport (UET) Protokoll. Dieses Protokoll optimiert verschiedene Schichten des Netzwerks, um die Leistungsfähigkeit von KI- und HPC-Workloads zu verbessern. Die UET-Spezifikation umfasst drei unterschiedliche Profile: AI Base, AI Full und HPC, die jeweils unterschiedliche Funktionalitäten bieten.

Optimierte Mechanismen

UET nutzt grundlegend RDMA-Mechanismen (Remote Direct Memory Access), wodurch ein direkter Zugriff vom Netzwerk in den Hostspeicher ermöglicht wird. Dies umgeht den Kernel des Betriebssystems und führt zu einer optimierten Latenz. Weitere Mechanismen wie "Deferrable Send" und das Vermeiden von Handshakes für den Verbindungsaufbau tragen zur Effizienzsteigerung bei. Die Peers im UET arbeiten mit kurzfristigen Verbindungen für die jeweiligen Transaktionen, was die Skalierbarkeit verbessert und die Kosten verringert.

Verkehrsklassen und Staukontrollmechanismen

UET arbeitet mit zwei Verkehrsklassen (Traffic Classes; TCs), um Deadlocks zwischen Antworten und Anfragen in einer verlustfreien Umgebung zu vermeiden. Effiziente Staukontrollmechanismen, wie das "Spraying-Verfahren", optimieren die Lastverteilung in ECMP-Netzen (Equal-Cost-Multipath). Dynamische Window-Sizes basierend auf der Round-Trip Time (RTT) des Pfades sowie ECN-Markierungen und Paketverluste können ebenfalls zum Einsatz kommen.

In-Network Collectives und Hardwarebeschleunigung

In-Network Collectives (INCs), die auch als "Switch-Offloading" bezeichnet werden, ermöglichen es, Netzwerkoperationen zur Hardwarebeschleunigung von Endgeräten an Switches auszulagern. Dies führt zu einer weiteren Verbesserung der Netzwerkleistung und Effizienz.

Sicherheitsaspekte und Link Layer Retry

Von Beginn an wurden "Security-by-Design"-Ansätze berücksichtigt. UET basiert auf bewährten Protokollen wie IPSec und dem Open-Source-Projekt PSP, das AES-GCM, Schlüsselableitungsfunktionen und Schutz vor Replay-Attacken bietet. Auf der Link Layer-Ebene führt UET das Link Layer Retry (LLR) ein, um den Einfluss von fehlerhaften Links in einem KI-Cluster zu reduzieren. Bei einer LLR-Verbindung wird jedes Paket beim Absender in einem Puffer gehalten, bis der Empfänger den Empfang bestätigt.

Technologische Fortschritte und Beteiligung von Nvidia

Die Spezifikation des Ultra Ethernet Transport Protocols wird einige spannende Neuerungen für KI-Cluster mit sich bringen. Nvidia, ein Schwergewicht im GPU-Markt, ist dem Konsortium beigetreten, was die Bedeutung und das Potenzial dieser neuen Spezifikation unterstreicht.

Alternative Technologien und Marktdynamik

Neben UET gibt es auch andere Technologien wie InfiniBand und PCI Express, die bisher in HPC- und KI-Umgebungen eingesetzt wurden. Allerdings stoßen diese bei den Anforderungen moderner KI-Workloads an ihre Grenzen. Daher wird erwartet, dass der neue Ultra Ethernet Standard eine wichtige Rolle spielen wird, um die Leistung, Skalierbarkeit und Effizienz in KI-Clustern zu optimieren.

Ausblick und Marktentwicklung

Die Entwicklung von Ultra Ethernet ist ein bedeutender Schritt zur Optimierung der Netzwerkinfrastruktur für zukünftige KI- und HPC-Anwendungen. Laut dem jüngsten "Data Center 5-Year July 2023 Forecast Report" der Dell’Oro Group werden bis 2027 etwa 20 Prozent der Ethernet-Switch-Ports in Rechenzentren mit beschleunigten Servern zur Unterstützung von KI-Workloads verbunden sein. Der Markt für Rechenzentrum-Switches wird voraussichtlich weiter wachsen, getrieben durch die zunehmende Verbreitung generativer KI-Anwendungen. Dies unterstreicht die Notwendigkeit und das Potenzial des neuen Ultra Ethernet Standards.

Fazit

Die neue Ultra Ethernet Spezifikation verspricht, die Netzwerkinfrastruktur für KI-Cluster und HPC-Anwendungen grundlegend zu verändern. Durch die Optimierung verschiedener Netzwerkebenen und die Einführung innovativer Mechanismen zur Leistungssteigerung und Sicherheit bietet Ultra Ethernet eine vielversprechende Lösung für die Herausforderungen moderner KI-Workloads. Die Beteiligung von führenden Technologieunternehmen und die Unterstützung durch die Linux Foundation geben Anlass zur Hoffnung, dass dieser neue Standard die Anforderungen der Zukunft erfolgreich meistern wird. Bibliographie - https://www.heise.de/news/So-soll-der-neue-Standard-fuer-Ethernet-in-KI-Clustern-aussehen-9864532.html - https://www.computerwoche.de/article/2825619/neuer-ultra-ethernet-standard-fuer-ki.html - https://www.it-zoom.de/enterprise/e/neue-ki-chips-machen-nvidia-konkurrenz-34136/ - https://www.heise.de/news/Alle-gegen-Nvidia-Offener-Standard-UALink-vernetzt-KI-Cluster-9742371.html - https://www.datacenter-insider.de/verteilte-ist-doppelte-freude-mit-dem-nvidia-superchip-grace-hopper-co-a-7f4ad94354e6f4e587dad0993af63ed6/ - https://www.connect-professional.de/datacenter-verkabelung/ki-forschung-fuer-die-produktion-von-morgen.322438.html - https://www.elektroniknet.de/automation/industrie-40-iot/komplexe-systeme-ohne-ki-werden-zur-ausnahme.202307.html - https://www.din.de/resource/blob/891106/57b7d46a1d2514a183a6ad2de89782ab/deutsche-normungsroadmap-kuenstliche-intelligenz-ausgabe-2--data.pdf - https://www.computerweekly.com/de/feature/Zu-NVMe-Fabric-gehoeren-auch-Fibre-Channel-und-RDMA - https://administrator.de/forum/netzwerkdesign-unter-serverraeumen-7523642502.html
Was bedeutet das?