Hochmodernes Rechenzentrum mit NVIDIA Ethernet-Kabeln.

NVIDIA Ethernet-Netzwerk beschleunigt den weltweit größten KI-Supercomputer, gebaut von xAI

Total
0
Shares

NVIDIA hat heute bekannt gegeben, dass der Colossus-Supercomputercluster von xAI, der aus 100.000 NVIDIA Hopper GPUs in Memphis, Tennessee, besteht, diese massive Skalierung durch die Verwendung der NVIDIA Spectrum-X™ Ethernet-Netzwerktechnologie erreicht hat. Diese Plattform ist darauf ausgelegt, überlegene Leistung für Multi-Tenant-Hyperscale-KI-Fabriken zu bieten, die auf standardbasiertem Ethernet für ihr Remote Direct Memory Access (RDMA)-Netzwerk angewiesen sind.

Colossus, der weltweit größte KI-Supercomputer, wird verwendet, um die Grok-Familie von großen Sprachmodellen von xAI zu trainieren, wobei Chatbots als Funktion für X Premium-Abonnenten angeboten werden. xAI plant, die Größe von Colossus auf insgesamt 200.000 NVIDIA Hopper GPUs zu verdoppeln.

Die unterstützende Einrichtung und der hochmoderne Supercomputer wurden von xAI und NVIDIA in nur 122 Tagen gebaut, anstatt der typischen Zeitspanne für Systeme dieser Größe, die viele Monate bis Jahre in Anspruch nehmen kann. Es dauerte 19 Tage, vom Zeitpunkt, an dem das erste Rack auf den Boden gerollt wurde, bis das Training begann.

Während des Trainings des extrem großen Grok-Modells erreicht Colossus eine beispiellose Netzwerkleistung. In allen drei Ebenen des Netzwerkgewebes hat das System null Anwendungs-Latenzdegradation oder Paketverlust aufgrund von Flusskollisionen erfahren. Es hat 95 % Daten-Durchsatz aufrechterhalten, ermöglicht durch die Spectrum-X-Kontrolle der Überlastung.

Dieses Leistungsniveau kann nicht in großem Maßstab mit Standard-Ethernet erreicht werden, das Tausende von Flusskollisionen erzeugt und nur 60 % Daten-Durchsatz liefert.

„KI wird mission-kritisch und erfordert erhöhte Leistung, Sicherheit, Skalierbarkeit und Kosteneffizienz“, sagte Gilad Shainer, Senior Vice President für Networking bei NVIDIA. „Die NVIDIA Spectrum-X Ethernet-Netzwerktechnologie ist darauf ausgelegt, Innovatoren wie xAI schnellere Verarbeitung, Analyse und Ausführung von KI-Workloads zu bieten und beschleunigt somit die Entwicklung, Bereitstellung und Markteinführungszeit von KI-Lösungen.“

„Colossus ist das leistungsstärkste Trainingssystem der Welt“, sagte Elon Musk auf X. „Gute Arbeit vom xAI-Team, NVIDIA und unseren vielen Partnern/Lieferanten.“

„xAI hat den weltweit größten und leistungsstärksten Supercomputer gebaut“, sagte ein Sprecher von xAI. „NVIDIA’s Hopper GPUs und Spectrum-X ermöglichen es uns, die Grenzen des Trainings von KI-Modellen in großem Maßstab zu verschieben und eine superbeschleunigte und optimierte KI-Fabrik auf Basis des Ethernet-Standards zu schaffen.“

Im Herzen der Spectrum-X-Plattform steht der Spectrum SN5600 Ethernet-Switch, der Portgeschwindigkeiten von bis zu 800 Gb/s unterstützt und auf dem Spectrum-4-Switch-ASIC basiert. xAI entschied sich, den Spectrum-X SN5600-Switch mit NVIDIA BlueField-3® SuperNICs zu kombinieren, um eine beispiellose Leistung zu erzielen.

Spectrum-X Ethernet-Netzwerk für KI bringt fortschrittliche Funktionen mit sich, die hochwirksame und skalierbare Bandbreite mit niedriger Latenz und kurzer Nachlauf-Latenz bieten, die zuvor exklusiv für InfiniBand waren. Zu diesen Funktionen gehören adaptive Routing mit NVIDIA Direct Data Placement-Technologie, Überlastkontrolle sowie verbesserte Sichtbarkeit und Leistungsisolierung des KI-Gewebes – alles entscheidende Anforderungen für Multi-Tenant-generative KI-Clouds und große Unternehmensumgebungen.

Quellen

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

You May Also Like