NVIDIA präsentiert Nemotron 3 Super ein neues offenes KI-Modell für agentenbasierte Anwendungen

Kategorien:

No items found.

Freigegeben:

April 11, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

NVIDIA hat Nemotron 3 Super veröffentlicht, ein 120 Milliarden Parameter starkes offenes Modell, das auf effiziente Multi-Agenten-KI-Anwendungen abzielt.
Das Modell zeichnet sich durch eine hybride Mamba-Transformer-MoE-Architektur aus, die hohe Genauigkeit und einen bis zu 5-fachen Durchsatz gegenüber Vorgängermodellen bietet.
Nemotron 3 Super verfügt über ein Kontextfenster von bis zu 1 Million Tokens, was eine verbesserte Langzeitgedächtnisfunktion für KI-Agenten ermöglicht.
Es wurde mit NVFP4-Quantisierung vorab trainiert, was die Speichereffizienz erhöht und die Inferenzgeschwindigkeit auf NVIDIA Blackwell Plattformen um das bis zu Vierfache beschleunigt.
NVIDIA stellt das Modell, die Trainingsdaten und die Rezepte unter einer offenen Lizenz zur Verfügung, um Anpassung und Einsatz durch Entwickler zu fördern.

NVIDIA hat mit der Veröffentlichung von Nemotron 3 Super, einem Modell aus der Nemotron 3 Familie, eine bedeutende Neuerung im Bereich der Künstlichen Intelligenz vorgestellt. Dieses Modell, das insgesamt 120 Milliarden Parameter umfasst und 12 Milliarden aktive Parameter nutzt, ist speziell für den Einsatz in komplexen, agentenbasierten KI-Systemen konzipiert. Sein erklärtes Ziel ist es, die Effizienz und Genauigkeit in Anwendungsbereichen wie der Softwareentwicklung und der Cybersicherheit zu verbessern.

Architektur und technische Innovationen

Nemotron 3 Super basiert auf einer hybriden Architektur, die Mamba-2 State-Space-Layer mit Transformer-Attention-Layern kombiniert und ein latentes Mixture-of-Experts (LatentMoE)-System integriert. Diese Kombination zielt darauf ab, die Leistung und Effizienz von KI-Modellen zu optimieren.

LatentMoE-Design

Ein Kernmerkmal von Nemotron 3 Super ist das LatentMoE-Design. Im Gegensatz zu herkömmlichen MoE-Architekturen, bei denen Token direkt an Experten weitergeleitet werden, projiziert LatentMoE Token-Einbettungen in einen komprimierten, niedrigrangigen latenten Raum, bevor die Expertensuche stattfindet. Dies ermöglicht es dem Modell, die vierfache Anzahl von Experten zu konsultieren, ohne die Rechenkosten zu erhöhen. Das Ergebnis ist eine präzisere Spezialisierung, die besonders in agentenbasierten Umgebungen mit unterschiedlichen Aufgabenstellungen, wie Code-Generierung oder Datenanalyse, von Vorteil sein kann.

Multi-Token Prediction (MTP)

Nemotron 3 Super ist mit Multi-Token Prediction (MTP)-Layern ausgestattet, die darauf trainiert sind, mehrere zukünftige Tokens gleichzeitig vorherzusagen. Diese Fähigkeit kann zu einer dreifachen Beschleunigung der Inferenzzeit führen, insbesondere bei der Generierung langer Sequenzen oder strukturierten Ausgaben. MTP trägt dazu bei, die „Thinking Tax“ zu reduzieren, also die Rechenkosten, die bei komplexen Agenten durch die schrittweise Denkweise entstehen können.

Hybrider Mamba-Transformer-Backbone

Die Architektur integriert Mamba-Layer für die sequentielle Effizienz und Transformer-Layer für präzises Reasoning. Mamba-Layer tragen zur Bewältigung langer Sequenzen bei, indem sie eine lineare Zeitkomplexität in Bezug auf die Sequenzlänge aufweisen. Dies ist entscheidend für das 1-Million-Token-Kontextfenster des Modells, das es Agenten ermöglicht, den gesamten Workflow-Status im Gedächtnis zu behalten und das „Goal Drift“ zu minimieren. Transformer-Attention-Layer sind strategisch platziert, um die Fähigkeit zur präzisen assoziativen Erinnerung zu erhalten.

Native NVFP4-Vortrainierung

Das Modell wurde nativ in NVFP4 (NVIDIA 4-Bit Floating-Point-Format) vorab trainiert, einer Präzision, die auf NVIDIA Blackwell-Plattformen optimiert ist. Diese native Vortrainierung in reduzierter Präzision kann die Speicheranforderungen erheblich senken und die Inferenzgeschwindigkeit um das bis zu Vierfache gegenüber FP8 auf NVIDIA Hopper-Systemen steigern, ohne dabei die Genauigkeit zu beeinträchtigen. Dies unterscheidet sich von der nachträglichen Quantisierung und soll die mathematische Stabilität und Genauigkeit des Modells unter eingeschränkten Speicherbedingungen gewährleisten.

Trainingsmethodik

Der Trainingsprozess von Nemotron 3 Super erfolgte in drei aufeinanderfolgenden Phasen:

Vortrainierung: Das Modell wurde auf über 25 Billionen Tokens mit NVFP4 vorab trainiert. Der Korpus umfasste 10 Billionen einzigartige, kuratierte Tokens aus verschiedenen Domänen wie Code, Mathematik, Wissenschaft und allgemeinem Wissen.
Überwachtes Fine-Tuning (SFT): In dieser Phase wurde das Modell mit etwa 7 Millionen SFT-Samples feinabgestimmt. Diese umfassten Reasoning, Befolgung von Anweisungen, Codierung, Sicherheit und mehrstufige Agentenaufgaben, um eine breite Verhaltensgrundlage zu schaffen.
Multi-Environment Reinforcement Learning (RL): Abschließend wurde das Modell mittels Reinforcement Learning in verschiedenen Umgebungen von NVIDIA NeMo Gym post-trainiert. Dies zielte darauf ab, das Modell auf realitätsnahes Agentenverhalten auszurichten, indem es die Fähigkeit des Modells bewertete, Aktionssequenzen auszuführen und verifizierbare Ergebnisse zu liefern.

Leistung und Benchmarking

Nemotron 3 Super zeigt auf verschiedenen agentenbasierten Benchmarks eine hohe Genauigkeit. Insbesondere bei langen Kontexten, wie dem RULER-Benchmark bei 1 Million Tokens, übertrifft es vergleichbare Modelle. Die Kombination aus Mamba-Layern und Transformer-Layern ermöglicht es, lange Sequenzen effizient zu verarbeiten, ohne die Leistung bei extremen Kontextlängen zu beeinträchtigen.

Im Vergleich zu anderen offenen Modellen ähnlicher Größe, wie Qwen3.5-122B-A10B und GPT-OSS-120B, zeigt Nemotron 3 Super sowohl Stärken als auch Bereiche, in denen andere Modelle punktuell führen. Es ist jedoch die spezifische Ausrichtung auf agentenbasierte Workloads, die durch seine Effizienz und das große Kontextfenster hervorgehoben wird.

Offenheit und Verfügbarkeit

NVIDIA hat Nemotron 3 Super unter einer offenen Lizenz veröffentlicht und stellt die Gewichte, Datensätze und Trainingsrezepte zur Verfügung. Dies soll Entwicklern ermöglichen, das Modell anzupassen, zu optimieren und auf ihrer eigenen Infrastruktur einzusetzen. Das Modell ist über Plattformen wie Hugging Face und NVIDIA NIM verfügbar und kann in verschiedenen Umgebungen, von Workstations bis zur Cloud, eingesetzt werden.

Die Bereitstellung des Modells erfolgt auch über verschiedene Partner, darunter Cloud-Service-Provider und Inferenz-Service-Provider, was eine breite Zugänglichkeit für Unternehmen und Entwickler gewährleisten soll.

Einsatz in agentenbasierten Systemen

Nemotron 3 Super ist für die Bewältigung komplexer Teilaufgaben innerhalb von Multi-Agenten-Systemen konzipiert. Beispiele für Anwendungsbereiche sind:

Softwareentwicklung: Agenten können ganze Codebasen in den Kontext laden, um eine End-to-End-Code-Generierung und -Fehlerbehebung zu ermöglichen.
Finanzanalyse: Das Modell kann Tausende von Seiten an Berichten im Speicher halten, um effiziente Analysen über lange Konversationen hinweg zu unterstützen.
Cybersicherheit: Die hohe Genauigkeit bei Tool-Aufrufen kann dazu beitragen, autonome Agenten in sicherheitskritischen Umgebungen zu unterstützen.

Die Architektur von Nemotron 3 Super, insbesondere die Kombination aus Mamba-Layern, LatentMoE und MTP, zielt darauf ab, die Effizienz bei agentenbasierten Workloads zu maximieren. Diese Ausrichtung auf die spezifischen Anforderungen von KI-Agenten, bei denen Kosten und Geschwindigkeit von Bedeutung sind, stellt einen wichtigen Aspekt der Entwicklung dieses Modells dar.

Die Veröffentlichung von Nemotron 3 Super unterstreicht NVIDIAs Engagement für offene KI-Modelle und die Weiterentwicklung von Technologien, die speziell auf die Anforderungen von agentenbasierten KI-Anwendungen zugeschnitten sind. Die Bereitstellung umfassender Ressourcen soll die Reproduzierbarkeit und Weiterentwicklung in der Forschung und Entwicklung fördern.

Bibliography - Alexiuk, C. (2026, March 11). Introducing Nemotron 3 Super: An Open Hybrid Mamba-Transformer MoE for Agentic Reasoning. NVIDIA Developer Blog. [https://developer.nvidia.com/blog/introducing-nemotron-3-super-an-open-hybrid-mamba-transformer-moe-for-agentic-reasoning/](https://developer.nvidia.com/blog/introducing-nemotron-3-super-an-open-hybrid-mamba-transformer-moe-for-agentic-reasoning/) - Briski, K. (2026, March 11). New NVIDIA Nemotron 3 Super Delivers 5x Higher Throughput for Agentic AI. NVIDIA Blog. [https://blogs.nvidia.com/blog/nemotron-3-super-agentic-ai/](https://blogs.nvidia.com/blog/nemotron-3-super-agentic-ai/) - Geryani, M. (2026, March 11). NVIDIA Nemotron 3 Super Is Here: The 120B Open Model That Ends the Thinking Tax for AI Agents. Firethering. [https://firethering.com/nvidia-nemotron-3-super/](https://firethering.com/nvidia-nemotron-3-super/) - NVIDIA. (n.d.). nemotron-3-super-120b-a12b Model by NVIDIA | NVIDIA NIM. NVIDIA Build. [https://build.nvidia.com/nvidia/nemotron-3-super-120b-a12b/modelcard](https://build.nvidia.com/nvidia/nemotron-3-super-120b-a12b/modelcard) - NVIDIA. (2026, March 10). NVIDIA Nemotron 3 Super. NVIDIA Nemotron. [https://research.nvidia.com/labs/nemotron/Nemotron-3-Super/](https://research.nvidia.com/labs/nemotron/Nemotron-3-Super/) - NVIDIA. (2025, December 15). NVIDIA Nemotron 3 Family of Models. NVIDIA Nemotron. [https://research.nvidia.com/labs/nemotron/Nemotron-3/](https://research.nvidia.com/labs/nemotron/Nemotron-3/) - NVIDIA. (n.d.). nvidia/NVIDIA-Nemotron-3-Super-120B-A12B-Base-BF16 · Hugging Face. Hugging Face. [http://huggingface.co/nvidia/NVIDIA-Nemotron-3-Super-120B-A12B-Base-BF16](http://huggingface.co/nvidia/NVIDIA-Nemotron-3-Super-120B-A12B-Base-BF16) - NVIDIA. (n.d.). nvidia/NVIDIA-Nemotron-3-Super-120B-A12B-BF16 - Hugging Face. Hugging Face. [https://huggingface.co/nvidia/NVIDIA-Nemotron-3-Super-120B-A12B-BF16](https://huggingface.co/nvidia/NVIDIA-Nemotron-3-Super-120B-A12B-BF16) - Zhang, S. (2026, March 11). NVIDIA Ships Nemotron 3 Super - 120B Open Model for Agents. Awesome Agents. [https://awesomeagents.ai/news/nvidia-nemotron-3-super-120b-agentic-ai/](https://awesomeagents.ai/news/nvidia-nemotron-3-super-120b-agentic-ai/)