Intel Gaudi 3: Neue Ära der Effizienzsteigerung in der KI-Inferenz

Kategorien:

No items found.

Freigegeben:

June 14, 2024

Intel Gaudi 3: Schnellere Unterstützung bei der Generierung

‍

Einleitung

Mit der stetigen Zunahme von Modellgrößen bei der Generativen KI steigen auch die Anforderungen an die Inferenzressourcen erheblich. Dies führt nicht nur zu höheren Kosten pro Generation, sondern auch zu einem erhöhten Stromverbrauch. Die Optimierung der Inferenz beim Textgenerieren ist daher von entscheidender Bedeutung, um die Latenz zu reduzieren, die Infrastrukturkosten zu senken und den Energieverbrauch zu minimieren. Dies kann wiederum die Benutzererfahrung verbessern und die Effizienz bei Textgenerierungsaufgaben steigern.

Intel Gaudi 3: Ein Überblick

Der Intel Gaudi 3 Accelerator wurde entwickelt, um der wachsenden Nachfrage nach schneller und effizienter KI-Rechenleistung gerecht zu werden. Die dritte Generation des Gaudi-Chips, die von Intel im Jahr 2024 vorgestellt wurde, bietet erhebliche Leistungssteigerungen gegenüber ihren Vorgängern und konkurrierenden Produkten. Dieser Chip wurde speziell für große KI-Cluster entwickelt, die zur Schulung und Inferenz von Modellen mit bis zu Billionen von Parametern eingesetzt werden.

Technische Spezifikationen

Der Gaudi 3 Accelerator integriert 64 programmierbare Tensor-Prozessorkerne (TPCs) und acht Matrix-Multiplikationseinheiten (MMEs), die bis zu 64.000 Multiplikations-Akkumulations-Operationen pro Zyklus ausführen können. Dies ermöglicht eine hohe Effizienz bei der Durchführung von Matrixoperationen, die im Kern des maschinellen Lernens stehen. Zudem verfügt der Chip über 128 GB HBM2E-Speicher mit einer Bandbreite von 3,7 TB/s und 24 200-Gb/s Ethernet-Ports für eine schnelle und flexible Vernetzung.

Speculative Sampling und Unterstützte Generierung

Eine der Schlüsseltechniken zur Beschleunigung der Textgenerierung ist das speculative sampling. Diese Methode erzeugt ein Entwurfsmodell, das K Tokens generiert, die dann im Zielmodell evaluiert werden. Wenn das Entwurfsmodell abgelehnt wird, wird das Zielmodell verwendet, um das nächste Token zu generieren. Dieser Prozess wiederholt sich. Durch die Nutzung von speculative sampling können wir die Geschwindigkeit der Textgenerierung verbessern und eine ähnliche Sampling-Qualität wie bei der autoregressiven Sampling erreichen.

Assisted Generation

Eine ähnliche Technik wie das speculative sampling ist die unterstützte Generierung. Diese wurde unabhängig zur gleichen Zeit entwickelt und in die Hugging Face Transformers integriert. Der .generate() Aufruf in Hugging Face hat jetzt einen optionalen Parameter assistant_model, um diese Methode zu aktivieren.

Verwendung und Experimente

Die Verwendung der unterstützten Generierung ist unkompliziert. Ein Beispiel wird hier bereitgestellt. Der Parameter --assistant_model wird verwendet, um das Entwurfsmodell zu spezifizieren. Das Entwurfsmodell wird verwendet, um K Tokens zu generieren, die dann im Zielmodell evaluiert werden. Das Zielmodell wird verwendet, um das nächste Token zu generieren, wenn das Entwurfsmodell abgelehnt wird. Der Akzeptanzrate des Entwurfsmodells hängt teilweise vom Eingabetext ab. Typischerweise haben wir bei großen transformerbasierten Modellen Geschwindigkeitssteigerungen von etwa 2x gesehen.

Intel Gaudi 3: Eine Revolution im KI-Bereich

Der Intel Gaudi 3 Accelerator stellt eine bedeutende Entwicklung im Bereich der KI-Chips dar. Dank seiner leistungsstarken Architektur und der Integration modernster Technologien bietet er erhebliche Leistungssteigerungen gegenüber früheren Generationen und konkurrierenden Produkten. Diese Fortschritte ermöglichen es Unternehmen, ihre KI-Modelle schneller zu trainieren und effizienter zu inferieren, was letztendlich zu besseren Ergebnissen und einer schnelleren Markteinführung führt.

Schlussfolgerung

Die Beschleunigung der Textgenerierung mit Gaudi durch unterstützte Generierung wird nun unterstützt und ist einfach zu bedienen. Diese Methode, basierend auf speculative sampling, hat sich als effektiv erwiesen, um die Leistung bei großen transformerbasierten Modellen zu verbessern. Intel Gaudi 3 bietet eine vielversprechende Lösung für Unternehmen, die ihre KI-Modelle schneller und kostengünstiger trainieren und einsetzen möchten.

Quellen

Die Informationen in diesem Artikel stammen aus den folgenden Quellen:

- https://cdrdv2-public.intel.com/817486/gaudi-3-ai-accelerator-white-paper.pdf
- https://habana.ai/wp-content/uploads/2023/10/Intel-Gaudi2-AI-Accelerators-whitepaper.pdf
- https://www.intel.com/content/www/us/en/newsroom/news/vision-2022-habana-gaudi2-greco.html
- https://habana.ai/
- https://www.electronicdesign.com/technologies/embedded/article/55017637/electronic-design-intel-rolls-out-gaudi-3-accelerator-chip-for-large-ai-clusters
- https://ai-techpark.com/intel-introduced-gaudi-3-ai-open-systems-strategy-new-customer-wins/
- https://siliconangle.com/2024/04/09/intel-challenges-nvidia-new-gaudi-3-ai-chip-amd-expands-processor-lineup/
- https://nand-research.com/a-look-at-intels-new-emerald-rapids-processor/
- https://www.aspsys.com/intel-gaudi-3-accelerators/
- https://www.zdnet.com/article/intel-shows-off-latest-gaudi-ai-chip-pitched-towards-enterprises/

Was bedeutet das?