Neue INT4-quantisierte Modelle von Intel AI und DeepSeek AI optimieren DeepSeek-V4 für Agenten-Anwendungen

Kategorien:

No items found.

Freigegeben:

April 28, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

Intel AI und DeepSeek AI haben zwei neue INT4-quantisierte DeepSeek-V4 Modelle vorgestellt, die mittels AutoRound optimiert wurden.
Diese Modelle ermöglichen den effizienten Betrieb von DeepSeek-V4 auch ohne MXFP4-Unterstützung.
DeepSeek-V4 zeichnet sich durch ein 1 Million Token Kontextfenster und eine verbesserte Effizienz bei der Kontextverarbeitung aus, was es besonders für Agenten-Anwendungen geeignet macht.
Die Modelle nutzen innovative Aufmerksamkeitstypen wie Compressed Sparse Attention (CSA) und Heavily Compressed Attention (HCA) sowie optimierte Speicherformate (FP8, FP4) zur Reduzierung des KV-Cache-Speicherbedarfs.
Post-Training-Optimierungen umfassen das Beibehalten von Denkprozessen über Tool-Aufrufe hinweg und ein robustes XML-basiertes Tool-Call-Schema.
Benchmarking-Ergebnisse zeigen eine hohe Leistung in Agenten-spezifischen Aufgaben, die mit führenden kommerziellen Modellen vergleichbar ist.

Die Landschaft der Künstlichen Intelligenz wird kontinuierlich durch Innovationen im Bereich der Sprachmodelle (Large Language Models, LLMs) und deren Optimierung für den praktischen Einsatz geprägt. Eine aktuelle Entwicklung, die in Fachkreisen auf Interesse stößt, ist die Veröffentlichung zweier INT4-quantisierter DeepSeek-V4-Modelle durch Intel AI und DeepSeek AI. Diese Modelle wurden unter Verwendung des AutoRound-Quantisierungsverfahrens optimiert und sollen den effizienten Betrieb der DeepSeek-V4-Architektur auch in Umgebungen ohne spezielle MXFP4-Hardwareunterstützung ermöglichen.

Quantisierung und Effizienz: Ein technischer Überblick

Die Quantisierung ist ein Verfahren, das darauf abzielt, die Größe und den Rechenaufwand von neuronalen Netzen zu reduzieren, indem die Präzision der Modellgewichte von höherwertigen Formaten (z.B. Float16 oder Float32) auf niedrigere Formate wie INT4 (4-Bit Integer) gesenkt wird. Dies führt zu kleineren Modellgrößen und potenziell schnelleren Inferenzzeiten, was besonders für den Einsatz auf Geräten mit begrenzten Ressourcen oder in Edge-Computing-Szenarien von Bedeutung ist. Das AutoRound-Verfahren von Intel ist eine fortschrittliche Quantisierungsmethode, die darauf ausgelegt ist, den durch die Reduzierung der Präzision verursachten Genauigkeitsverlust zu minimieren.

DeepSeek-V4: Eine Architektur für Agenten-Anwendungen

DeepSeek-V4, das zugrunde liegende Modell, bietet ein Kontextfenster von 1 Million Token. Ein derart großes Kontextfenster ist für komplexe Agenten-Anwendungen von entscheidender Bedeutung, da es dem Modell ermöglicht, über lange Interaktionen hinweg kohärent und informativ zu bleiben. Die Effizienz der Kontextverarbeitung ist dabei ein Schlüsselfaktor. DeepSeek-V4 adressiert dies durch eine innovative Architektur, die den Overhead für lange Kontextlängen drastisch reduziert.

Die Herausforderung des KV-Caches

Bei der Verarbeitung langer Sequenzen in Transformatoren-Modellen stellt der Key-Value (KV)-Cache eine erhebliche Herausforderung dar. Die Größe des KV-Caches und die Anzahl der Floating-Point-Operationen (FLOPs) pro Token steigen mit der Sequenzlänge. DeepSeek-V4 wurde entwickelt, um diese Probleme zu minimieren. Im Vergleich zu DeepSeek-V3.2 benötigt DeepSeek-V4-Pro nur 27 % der FLOPs für die Single-Token-Inferenz und 10 % des KV-Cache-Speichers bei 1 Million Token. Die Flash-Variante reduziert diese Werte weiter auf 10 % der FLOPs und 7 % des KV-Caches. Dies wird durch eine Kombination aus Architekturanpassungen und Speicheroptimierungen erreicht.

Innovative Aufmerksamkeitstypen

Die Effizienzsteigerung von DeepSeek-V4 resultiert maßgeblich aus der Implementierung zweier neuartiger Aufmerksamkeitstypen, die schichtübergreifend abwechselnd eingesetzt werden:

Compressed Sparse Attention (CSA): Diese Methode komprimiert KV-Einträge um den Faktor 4 entlang der Sequenzdimension mithilfe eines Softmax-gesteuerten Poolings mit einem gelernten Positions-Bias. Ein "Lightning Indexer" wählt die Top-K komprimierten Blöcke pro Abfrage aus, was den Suchraum im Vergleich zu früheren Sparse-Attention-Ansätzen verkleinert.
Heavily Compressed Attention (HCA): HCA komprimiert KV-Einträge sogar um den Faktor 128 und verzichtet auf die Sparse-Auswahl. Da die komprimierte Sequenz hierbei sehr kurz ist, ist die dichte Aufmerksamkeit über alle komprimierten Blöcke hinweg kostengünstig.

Die abwechselnde Anwendung von CSA- und HCA-Schichten innerhalb des Modellstapels (z.B. 61 Schichten in V4-Pro) ermöglicht eine flexible Anpassung an unterschiedliche Aufmerksamkeitsmuster und optimiert die Ressourcennutzung. Zusätzlich werden FP8-Speicherformate für die meisten KV-Einträge und FP16 (BF16) nur für spezifische RoPE-Dimensionen verwendet, wobei der Lightning Indexer in FP4 arbeitet. Diese Speicherentscheidungen tragen wesentlich zur Reduzierung des KV-Cache-Bedarfs bei.

Post-Training-Optimierungen für Agenten

Neben den architektonischen Neuerungen wurden auch post-trainingseitige Entscheidungen getroffen, um DeepSeek-V4 speziell für Agenten-Anwendungsfälle zu optimieren:

Beibehaltung von Denkprozessen über Tool-Aufrufe hinweg: Im Gegensatz zu früheren Versionen, die Denkspuren bei neuen Benutzernachrichten verwarfen, behält V4 nun die vollständige Argumentationshistorie über alle Runden bei, auch über Benutzerinteraktionen hinweg. Dies ermöglicht eine kohärente und kumulative Gedankenführung bei Aufgaben mit längerem Horizont.
Robustes XML-basiertes Tool-Call-Schema: V4 führt ein spezielles |DSML| Token und ein XML-basiertes Format für Tool-Aufrufe ein. Dieses XML-Format reduziert Fehler beim Parsen im Vergleich zu JSON-in-String-Ansätzen, insbesondere bei verschachtelten, zitierten Inhalten. Es unterscheidet zwischen String-Parametern und strukturierten Parametern, was eine Klasse von Parsing-Fehlern eliminiert.
DSec: Eine Sandbox für RL-Rollouts: Das Agentenverhalten wurde mittels Reinforcement Learning (RL) in realen Tool-Umgebungen trainiert. DeepSeek Elastic Compute (DSec) ist eine Rust-Plattform, die vier Ausführungssubstrate (Funktionsaufrufe, Container, MicroVMs, Full VMs) unter einem Python-SDK bereitstellt. DSec ermöglicht schnelle Image-Ladevorgänge, präemptionssichere Trajektorienwiederholungen und eine einheitliche API, was die Effizienz des Agenten-Trainings verbessert.

Leistungsbewertung und Vergleich

Die Benchmarking-Ergebnisse von DeepSeek-V4-Pro-Max zeigen eine hohe Konkurrenzfähigkeit, insbesondere in Agenten-spezifischen Aufgaben. Obwohl die Werte für Wissen und Schlussfolgerung solide, aber nicht immer führend sind, übertrifft das Modell in vielen Agenten-Benchmarks etablierte Konkurrenten. Beispielsweise erreicht es im Terminal Bench 2.0 67,9 Punkte, liegt im SWE Verified bei 80,6 gelösten Aufgaben und im MCPAtlas Public bei 73,6. Im internen F&E-Coding-Benchmark erreicht V4-Pro-Max eine Passrate von 67 %.

Die 1M-Kontext-Retrieval-Fähigkeiten sind ebenfalls bemerkenswert, mit einer MRCR 8-Needle-Genauigkeit, die bis zu 256K Token über 0,82 bleibt und selbst bei 1M Token noch 0,59 beträgt.

Verfügbarkeit und Nutzung

Die Modelle werden auf Hugging Face bereitgestellt. Es sind vier Checkpoints verfügbar:

deepseek-ai/DeepSeek-V4-Pro (1.6T Gesamtparameter / 49B aktiviert, instruct)
deepseek-ai/DeepSeek-V4-Flash (284B Gesamtparameter / 13B aktiviert, instruct)
deepseek-ai/DeepSeek-V4-Pro-Base (1.6T Gesamtparameter / 49B aktiviert, base)
deepseek-ai/DeepSeek-V4-Flash-Base (284B Gesamtparameter / 13B aktiviert, base)

Die Instruct-Modelle unterstützen drei Reasoning-Modi: Non-think (schnell, keine Gedankenketten), Think High (explizites Reasoning in ```think``` Blöcken) und Think Max (maximaler Reasoning-Aufwand mit speziellem System-Prompt). Für den Think Max-Modus wird ein Kontextfenster von mindestens 384K Token empfohlen. Die empfohlenen Sampling-Parameter sind temperature=1.0, top_p=1.0.

Implikationen für B2B-Anwendungen

Für B2B-Anwender, die an der Implementierung fortgeschrittener KI-Agenten oder an der Verarbeitung sehr langer Textsequenzen interessiert sind, bieten die INT4-quantisierten DeepSeek-V4-Modelle mehrere Vorteile:

Ressourceneffizienz: Die Möglichkeit, diese Modelle mit INT4-Präzision auszuführen, reduziert den Speicher- und Rechenaufwand erheblich. Dies kann zu niedrigeren Betriebskosten führen und den Einsatz auf einer breiteren Palette von Hardware ermöglichen, auch ohne dedizierte MXFP4-Unterstützung.
Verbesserte Agenten-Fähigkeiten: Die spezifischen Optimierungen für Agenten-Workflows, wie die Beibehaltung von Denkprozessen und das robuste Tool-Call-Schema, können die Entwicklung leistungsfähigerer und zuverlässigerer KI-Agenten erleichtern.
Skalierbarkeit: Das große Kontextfenster von 1 Million Token ermöglicht die Bearbeitung komplexer Aufgaben, die eine umfassende Kontextualisierung erfordern, wie z.B. die Analyse langer Dokumente, die Durchführung mehrstufiger Recherchen oder die Verwaltung komplexer Dialoge.
Wettbewerbsfähige Leistung: Die Leistung in Agenten-spezifischen Benchmarks positioniert DeepSeek-V4 als eine ernstzunehmende Alternative zu führenden kommerziellen Modellen.

Die Veröffentlichung dieser quantisierten Modelle unterstreicht die fortschreitende Demokratisierung leistungsfähiger KI-Technologien. Unternehmen können nun von den Fähigkeiten von DeepSeek-V4 profitieren, ohne in spezifische Hardware investieren zu müssen, die MXFP4 nativ unterstützt. Dies eröffnet neue Möglichkeiten für die Entwicklung und den Einsatz von KI-Lösungen in verschiedenen Branchen.

Zukünftige Perspektiven

Es bleibt abzuwarten, wie sich die Community auf das |DSML| Schema und die interleaved thinking-Ansätze einstellt und ob sich die Vorteile auch auf nicht-domänenspezifische Agenten-Frameworks übertragen lassen. Die fortlaufende Forschung und Entwicklung in diesem Bereich wird voraussichtlich zu weiteren Optimierungen und einer breiteren Akzeptanz dieser Technologien führen.

Bibliography: - DeepSeek-V4: a million-token context that agents can actually use. Hugging Face Blog. Published April 24, 2026. URL: https://huggingface.co/blog/deepseekv4 - Intel/DeepSeek-V4-Flash-W4A16-AutoRound · Hugging Face. URL: https://huggingface.co/Intel/DeepSeek-V4-Flash-W4A16-AutoRound - [research feature] Introduce INT4 support at the algorithm level (#1641) · 11e9186 · intel/auto-round. GitHub. Published April 22, 2026. URL: https://github.com/intel/auto-round/commit/11e91869415e2821daae790be7baf5d12b059641 - Support MXINT4 scheme (#1666) · c817d49 · intel/auto-round. GitHub. Published April 13, 2026. URL: https://github.com/intel/auto-round/commit/c817d4959db0e7c1765604ffbe495ce62933c9a2 - Intel/DeepSeek-R1-0528-Qwen3-8B-int4-AutoRound at main. Hugging Face. URL: https://huggingface.co/Intel/DeepSeek-R1-0528-Qwen3-8B-int4-AutoRound/tree/main - INCModel/DeepSeek-R1-MXFP4-AutoRound · Hugging Face. URL: https://huggingface.co/INCModel/DeepSeek-R1-MXFP4-AutoRound - Intel/DeepSeek-V3.1-int4-AutoRound · Hugging Face. URL: https://huggingface.co/Intel/DeepSeek-V3.1-int4-AutoRound - Intel/DeepSeek-V3.2-int4-AutoRound - Hugging Face. Published September 11, 2023. URL: https://huggingface.co/Intel/DeepSeek-V3.2-int4-AutoRound - EnsueAI/DeepSeek-V4-Flash-Base-INT4 · Hugging Face. URL: https://huggingface.co/EnsueAI/DeepSeek-V4-Flash-Base-INT4 - Intel/DeepSeek-R1-AutoRound-Recipe - Hugging Face. URL: https://huggingface.co/Intel/DeepSeek-R1-AutoRound-Recipe