Neues Modell von Red Hat AI verbessert die Effizienz großer Sprachmodelle durch spekulatives Decoding

Kategorien:

No items found.

Freigegeben:

July 3, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

Red Hat AI hat eine Vorschau des GLM-5.2 DSpark Speculator Draft Models veröffentlicht.
Dieses Modell ist für das spekulative Decoding von zai-org/GLM-5.2-FP8 innerhalb von vLLM konzipiert.
Es zielt darauf ab, die Token-Generierung durch spekulatives Decoding zu beschleunigen.
Erste Tests zeigen eine Beschleunigung um das ca. 1,5-fache für GLM-5.2-FP8 auf 4x B300 GPUs.
DSpark verwendet ein DFlash-Backbone, einen Markov Logit-Bias Head und einen Per-Position Confidence Head.
Das Training erfolgte online mit 50.000 UltraChat-Prompts, die von GLM-5.2-FP8 selbst generiert wurden.
GLM-5.2 ist ein Mixture-of-Experts (MoE) Modell mit rund 743 Milliarden Parametern.
Die Implementierung in vLLM ermöglicht eine effiziente Nutzung verschiedener Hardware-Architekturen, einschließlich NVIDIA H200 und Huawei Ascend NPUs.

Die Landschaft der Künstlichen Intelligenz (KI) ist einem ständigen Wandel unterworfen, angetrieben durch Innovationen in Modellarchitekturen und Inferenztechnologien. Eine aktuelle Entwicklung, die für Unternehmen im B2B-Bereich von Bedeutung sein könnte, ist die Veröffentlichung einer Vorschau des GLM-5.2 DSpark Speculator Draft Models durch Red Hat AI. Diese Initiative zielt darauf ab, die Effizienz der Token-Generierung in großen Sprachmodellen (LLMs) durch den Einsatz von spekulativem Decoding erheblich zu verbessern. Als Spezialist für KI-Technologien analysieren wir für Sie die Bedeutung dieser Entwicklung und ihre potenziellen Auswirkungen.

Grundlagen des GLM-5.2 DSpark Speculators

Was ist spekulatives Decoding?

Spekulatives Decoding ist eine Technik, die darauf abzielt, die Inferenzgeschwindigkeit von LLMs zu erhöhen. Dabei wird ein kleineres, schnelleres "Draft-Modell" verwendet, um eine Sequenz von Token vorherzusagen. Diese vorgeschlagenen Token werden dann vom größeren, genaueren "Target-Modell" in einem Batch validiert. Wenn die Vorschläge korrekt sind, können mehrere Token in einem Schritt generiert werden, was die Gesamtgenerierungszeit reduziert. Im Falle von Fehlern wird das Target-Modell zur Korrektur herangezogen und die Generierung fortgesetzt.

Die Architektur des DSpark Speculators

Der GLM-5.2 DSpark Speculator integriert eine spezifische Architektur, die auf Effizienz ausgelegt ist:

DFlash Backbone: Dies bildet die Grundlage des Draft-Modells und ist für die schnelle Vorhersage von Token verantwortlich. Die Unterstützung des DFlash-Algorithmus ist ein wesentlicher Bestandteil der Speculators v0.5.0-Version, die eine Single-Pass-Generierung von Draft-Token mit Blockdiffusion ermöglicht.
Markov Logit-Bias Head: Dieser Bestandteil hilft, die Wahrscheinlichkeiten von Token anzupassen, basierend auf den vorhergehenden Token, um die Qualität der Vorhersagen zu verbessern.
Per-Position Confidence Head: Dieser Kopf bewertet die Zuverlässigkeit der Vorhersagen für jede Position in der generierten Sequenz, was eine präzisere Validierung durch das Target-Modell ermöglicht.

Diese Kombination von Komponenten ist darauf ausgelegt, die Akzeptanzrate der vom Draft-Modell vorgeschlagenen Token zu maximieren und somit die Effizienz des spekulativen Decodings zu steigern.

Technische Details und erste Ergebnisse

Integration mit vLLM

Die Implementierung des DSpark Speculators erfolgt über das vLLM-Framework, eine leistungsstarke Inferenz-Engine für LLMs. vLLM ist bekannt für seinen hohen Durchsatz und seine Speichereffizienz, was es zu einer idealen Plattform für die Bereitstellung von LLMs und die Nutzung von Techniken wie dem spekulativen Decoding macht. Die aktuelle Vorschau läuft auf vLLM nightly Builds und ermöglicht eine Beschleunigung von etwa dem 1,5-fachen für GLM-5.2-FP8 auf 4x B300 GPUs.

Trainingsdetails

Das Training des DSpark Speculators erfolgte online, wobei verdeckte Zustände (hidden states) direkt von einem live GLM-5.2-FP8 vLLM-Server (TP4) gestreamt wurden. Der Trainer lief datenparallel auf den verbleibenden GPUs. Für das Training wurden 8x B300 GPUs verwendet. Die Trainingsdaten bestanden aus 50.000 UltraChat-Prompts, die von GLM-5.2-FP8 selbst generiert wurden, mit einer Sequenzlänge von 4096. Das Training umfasste 3 Epochen mit einer Lernrate von 6e-4 und einem Cosine-Schedule. Die Architektur des Draft-Modells umfasste 5 Draft-Layer und ein Draft-Vokabular von 32.000 Tokens.

Validierungsergebnisse

Erste Validierungsergebnisse zeigen eine durchschnittlich akzeptierte Länge von 2,748 Token und eine durchschnittliche Akzeptanzrate von 0,411. Die Akzeptanzrate pro Position fiel von 0,711 auf 0,320. Im End-to-End-Betrieb mit vLLM erreichte der Speculator unter Greedy Decoding durchschnittlich 2,33 akzeptierte Token bei HumanEval und 3,13 bei math_reasoning. Es ist wichtig zu beachten, dass es sich hierbei um einen frühen Test-Checkpoint handelt und weitere Optimierungen erwartet werden.

Das zugrunde liegende Modell: GLM-5.2

Eigenschaften des GLM-5.2 Modells

GLM-5.2 ist das neueste Modell der GLM-5-Serie, ein Mixture-of-Experts (MoE)-Modell von Z-AI. Es verfügt über etwa 743 Milliarden Gesamtparameter, von denen 39 Milliarden pro Token aktiv sind. Eine wesentliche Neuerung gegenüber GLM-5 und GLM-5.1 ist die Erweiterung der Multi-Token Prediction (MTP) von 3 auf 5 Draft-Token. Diese Erweiterung führt zu einem höheren End-to-End-Durchsatz bei Reasoning-, Coding- und Agenten-Workloads. Das Modell wird in BF16- und nativen FP8-Checkpoints ausgeliefert und behält das GLM "Thinking-Mode"-Verhalten bei.

Hardware-Kompatibilität

GLM-5.2 ist darauf ausgelegt, auf verschiedenen Hardware-Architekturen effizient zu funktionieren. Die FP8-Version passt auf einen einzelnen 8x H200- oder 8x H20-Knoten und erreicht mit dem FP8 KV-Cache den vollen 1M-Token-Kontext auf 8x B200 GPUs. Bemerkenswert ist auch die Kompatibilität über NVIDIA-Hardware hinaus, da GLM-5.2 auch auf Huawei Ascend NPUs über das vLLM-Ascend-Plugin betrieben werden kann, inklusive W8A8-Quantisierung und spekulativen Decoding-Rezepten.

Implikationen für B2B-Anwendungen

Effizienzsteigerung in der KI-Inferenz

Für Unternehmen, die LLMs in ihren Geschäftsabläufen einsetzen, bedeutet die Beschleunigung der Inferenz durch spekulatives Decoding eine potenzielle Reduzierung der Betriebskosten und eine Verbesserung der Reaktionszeiten. Anwendungen wie Chatbots, intelligente Assistenten, Code-Generierung und komplexe Datenanalysen können von schnelleren Token-Generierungsraten profitieren.

Flexibilität und Skalierbarkeit

Die Integration des DSpark Speculators in vLLM und die breite Hardware-Kompatibilität von GLM-5.2 bieten Unternehmen eine größere Flexibilität bei der Wahl ihrer Infrastruktur. Dies kann die Skalierbarkeit von KI-Anwendungen verbessern und Abhängigkeiten von spezifischen Hardware-Anbietern reduzieren.

Kontinuierliche Weiterentwicklung

Der aktuelle Release ist als "Preview-Checkpoint" gekennzeichnet, was darauf hindeutet, dass Red Hat AI weitere Verbesserungen und leistungsfähigere Modelle plant. Dies unterstreicht die dynamische Natur der KI-Entwicklung und die Notwendigkeit für Unternehmen, diese Fortschritte kontinuierlich zu beobachten und zu bewerten.

Die Einführung des GLM-5.2 DSpark Speculators stellt einen Schritt zur Optimierung der Inferenzleistung von großen Sprachmodellen dar. Durch die Kombination von spekulativem Decoding mit einer effizienten Modellarchitektur und der Integration in vLLM werden neue Möglichkeiten für die Bereitstellung und den Einsatz von LLMs in B2B-Anwendungen eröffnet. Unternehmen, die auf KI-Technologien setzen, sollten diese Entwicklungen genau verfolgen, um die Potenziale für Effizienzsteigerung und Innovation voll ausschöpfen zu können.

Bibliography:

- RedHatAI/GLM-5.2-speculator.dspark-preview - Hugging Face. (n.d.). - mgoin/GLM-5.2-speculator.dspark-preview · Hugging Face. (n.d.). - Red Hat AI previews GLM-5.2 DSpark speculator draft model. (2026, July 2). - [Spec Decode] DSpark · Pull Request #46995 · vllm-project/vllm. (2026, June 29). - zai-org/GLM-5.2 - vLLM Recipes. (n.d.). - Speculators v0.5.0: DFlash Support and Online Training | vLLM Blog. (2026, May 28). - [Spec] Add DSpark speculative decoding for DeepSeek-V4 · Pull Request #29538 · sgl-project/. (2026, June 28). - GLM-5.2 on vLLM and Ascend: Open Weights Beyond NVIDIA · Groundy. (2026, June 29). - CosmicRaisins/glm-5.2-gb10. (2026, June 22). - anvarazizov/glm-5.2-gb10. (2026, June 24).