Für Teams, Einzelnutzer, Kanzleien und Transkription – derselbe Mindverse Look, klar aufgeteilt nach Anwendungsfall.
für Teams und Unternehmen
Die Plattform für Unternehmen, die eigene KI-Workflows, Wissensdatenbanken und Assistenten produktiv einsetzen möchten.
für Einzelnutzer und Creator
Der einfachste Einstieg in das Mindverse-Ökosystem für Content, Recherche, Bilder, Audio und produktives Arbeiten.
für Juristen und Kanzleien
Die spezialisierte KI-Lösung für juristische Recherche, Vertragsarbeit und kanzleispezifische Workflows.
für Audio, Meetings und Transkription
Schnelle KI-Transkription für Audiodateien und Meetings – ideal zum sofortigen Start oder für regelmäßige Nutzung.

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
NVIDIA hat mit der Veröffentlichung von Nemotron 3 Super, einem Modell aus der Nemotron 3 Familie, eine bedeutende Neuerung im Bereich der Künstlichen Intelligenz vorgestellt. Dieses Modell, das insgesamt 120 Milliarden Parameter umfasst und 12 Milliarden aktive Parameter nutzt, ist speziell für den Einsatz in komplexen, agentenbasierten KI-Systemen konzipiert. Sein erklärtes Ziel ist es, die Effizienz und Genauigkeit in Anwendungsbereichen wie der Softwareentwicklung und der Cybersicherheit zu verbessern.
Nemotron 3 Super basiert auf einer hybriden Architektur, die Mamba-2 State-Space-Layer mit Transformer-Attention-Layern kombiniert und ein latentes Mixture-of-Experts (LatentMoE)-System integriert. Diese Kombination zielt darauf ab, die Leistung und Effizienz von KI-Modellen zu optimieren.
Ein Kernmerkmal von Nemotron 3 Super ist das LatentMoE-Design. Im Gegensatz zu herkömmlichen MoE-Architekturen, bei denen Token direkt an Experten weitergeleitet werden, projiziert LatentMoE Token-Einbettungen in einen komprimierten, niedrigrangigen latenten Raum, bevor die Expertensuche stattfindet. Dies ermöglicht es dem Modell, die vierfache Anzahl von Experten zu konsultieren, ohne die Rechenkosten zu erhöhen. Das Ergebnis ist eine präzisere Spezialisierung, die besonders in agentenbasierten Umgebungen mit unterschiedlichen Aufgabenstellungen, wie Code-Generierung oder Datenanalyse, von Vorteil sein kann.
Nemotron 3 Super ist mit Multi-Token Prediction (MTP)-Layern ausgestattet, die darauf trainiert sind, mehrere zukünftige Tokens gleichzeitig vorherzusagen. Diese Fähigkeit kann zu einer dreifachen Beschleunigung der Inferenzzeit führen, insbesondere bei der Generierung langer Sequenzen oder strukturierten Ausgaben. MTP trägt dazu bei, die „Thinking Tax“ zu reduzieren, also die Rechenkosten, die bei komplexen Agenten durch die schrittweise Denkweise entstehen können.
Die Architektur integriert Mamba-Layer für die sequentielle Effizienz und Transformer-Layer für präzises Reasoning. Mamba-Layer tragen zur Bewältigung langer Sequenzen bei, indem sie eine lineare Zeitkomplexität in Bezug auf die Sequenzlänge aufweisen. Dies ist entscheidend für das 1-Million-Token-Kontextfenster des Modells, das es Agenten ermöglicht, den gesamten Workflow-Status im Gedächtnis zu behalten und das „Goal Drift“ zu minimieren. Transformer-Attention-Layer sind strategisch platziert, um die Fähigkeit zur präzisen assoziativen Erinnerung zu erhalten.
Das Modell wurde nativ in NVFP4 (NVIDIA 4-Bit Floating-Point-Format) vorab trainiert, einer Präzision, die auf NVIDIA Blackwell-Plattformen optimiert ist. Diese native Vortrainierung in reduzierter Präzision kann die Speicheranforderungen erheblich senken und die Inferenzgeschwindigkeit um das bis zu Vierfache gegenüber FP8 auf NVIDIA Hopper-Systemen steigern, ohne dabei die Genauigkeit zu beeinträchtigen. Dies unterscheidet sich von der nachträglichen Quantisierung und soll die mathematische Stabilität und Genauigkeit des Modells unter eingeschränkten Speicherbedingungen gewährleisten.
Der Trainingsprozess von Nemotron 3 Super erfolgte in drei aufeinanderfolgenden Phasen:
Vortrainierung: Das Modell wurde auf über 25 Billionen Tokens mit NVFP4 vorab trainiert. Der Korpus umfasste 10 Billionen einzigartige, kuratierte Tokens aus verschiedenen Domänen wie Code, Mathematik, Wissenschaft und allgemeinem Wissen.
Überwachtes Fine-Tuning (SFT): In dieser Phase wurde das Modell mit etwa 7 Millionen SFT-Samples feinabgestimmt. Diese umfassten Reasoning, Befolgung von Anweisungen, Codierung, Sicherheit und mehrstufige Agentenaufgaben, um eine breite Verhaltensgrundlage zu schaffen.
Multi-Environment Reinforcement Learning (RL): Abschließend wurde das Modell mittels Reinforcement Learning in verschiedenen Umgebungen von NVIDIA NeMo Gym post-trainiert. Dies zielte darauf ab, das Modell auf realitätsnahes Agentenverhalten auszurichten, indem es die Fähigkeit des Modells bewertete, Aktionssequenzen auszuführen und verifizierbare Ergebnisse zu liefern.
Nemotron 3 Super zeigt auf verschiedenen agentenbasierten Benchmarks eine hohe Genauigkeit. Insbesondere bei langen Kontexten, wie dem RULER-Benchmark bei 1 Million Tokens, übertrifft es vergleichbare Modelle. Die Kombination aus Mamba-Layern und Transformer-Layern ermöglicht es, lange Sequenzen effizient zu verarbeiten, ohne die Leistung bei extremen Kontextlängen zu beeinträchtigen.
Im Vergleich zu anderen offenen Modellen ähnlicher Größe, wie Qwen3.5-122B-A10B und GPT-OSS-120B, zeigt Nemotron 3 Super sowohl Stärken als auch Bereiche, in denen andere Modelle punktuell führen. Es ist jedoch die spezifische Ausrichtung auf agentenbasierte Workloads, die durch seine Effizienz und das große Kontextfenster hervorgehoben wird.
NVIDIA hat Nemotron 3 Super unter einer offenen Lizenz veröffentlicht und stellt die Gewichte, Datensätze und Trainingsrezepte zur Verfügung. Dies soll Entwicklern ermöglichen, das Modell anzupassen, zu optimieren und auf ihrer eigenen Infrastruktur einzusetzen. Das Modell ist über Plattformen wie Hugging Face und NVIDIA NIM verfügbar und kann in verschiedenen Umgebungen, von Workstations bis zur Cloud, eingesetzt werden.
Die Bereitstellung des Modells erfolgt auch über verschiedene Partner, darunter Cloud-Service-Provider und Inferenz-Service-Provider, was eine breite Zugänglichkeit für Unternehmen und Entwickler gewährleisten soll.
Nemotron 3 Super ist für die Bewältigung komplexer Teilaufgaben innerhalb von Multi-Agenten-Systemen konzipiert. Beispiele für Anwendungsbereiche sind:
Die Architektur von Nemotron 3 Super, insbesondere die Kombination aus Mamba-Layern, LatentMoE und MTP, zielt darauf ab, die Effizienz bei agentenbasierten Workloads zu maximieren. Diese Ausrichtung auf die spezifischen Anforderungen von KI-Agenten, bei denen Kosten und Geschwindigkeit von Bedeutung sind, stellt einen wichtigen Aspekt der Entwicklung dieses Modells dar.
Die Veröffentlichung von Nemotron 3 Super unterstreicht NVIDIAs Engagement für offene KI-Modelle und die Weiterentwicklung von Technologien, die speziell auf die Anforderungen von agentenbasierten KI-Anwendungen zugeschnitten sind. Die Bereitstellung umfassender Ressourcen soll die Reproduzierbarkeit und Weiterentwicklung in der Forschung und Entwicklung fördern.
Bibliography - Alexiuk, C. (2026, March 11). Introducing Nemotron 3 Super: An Open Hybrid Mamba-Transformer MoE for Agentic Reasoning. NVIDIA Developer Blog. [https://developer.nvidia.com/blog/introducing-nemotron-3-super-an-open-hybrid-mamba-transformer-moe-for-agentic-reasoning/](https://developer.nvidia.com/blog/introducing-nemotron-3-super-an-open-hybrid-mamba-transformer-moe-for-agentic-reasoning/) - Briski, K. (2026, March 11). New NVIDIA Nemotron 3 Super Delivers 5x Higher Throughput for Agentic AI. NVIDIA Blog. [https://blogs.nvidia.com/blog/nemotron-3-super-agentic-ai/](https://blogs.nvidia.com/blog/nemotron-3-super-agentic-ai/) - Geryani, M. (2026, March 11). NVIDIA Nemotron 3 Super Is Here: The 120B Open Model That Ends the Thinking Tax for AI Agents. Firethering. [https://firethering.com/nvidia-nemotron-3-super/](https://firethering.com/nvidia-nemotron-3-super/) - NVIDIA. (n.d.). nemotron-3-super-120b-a12b Model by NVIDIA | NVIDIA NIM. NVIDIA Build. [https://build.nvidia.com/nvidia/nemotron-3-super-120b-a12b/modelcard](https://build.nvidia.com/nvidia/nemotron-3-super-120b-a12b/modelcard) - NVIDIA. (2026, March 10). NVIDIA Nemotron 3 Super. NVIDIA Nemotron. [https://research.nvidia.com/labs/nemotron/Nemotron-3-Super/](https://research.nvidia.com/labs/nemotron/Nemotron-3-Super/) - NVIDIA. (2025, December 15). NVIDIA Nemotron 3 Family of Models. NVIDIA Nemotron. [https://research.nvidia.com/labs/nemotron/Nemotron-3/](https://research.nvidia.com/labs/nemotron/Nemotron-3/) - NVIDIA. (n.d.). nvidia/NVIDIA-Nemotron-3-Super-120B-A12B-Base-BF16 · Hugging Face. Hugging Face. [http://huggingface.co/nvidia/NVIDIA-Nemotron-3-Super-120B-A12B-Base-BF16](http://huggingface.co/nvidia/NVIDIA-Nemotron-3-Super-120B-A12B-Base-BF16) - NVIDIA. (n.d.). nvidia/NVIDIA-Nemotron-3-Super-120B-A12B-BF16 - Hugging Face. Hugging Face. [https://huggingface.co/nvidia/NVIDIA-Nemotron-3-Super-120B-A12B-BF16](https://huggingface.co/nvidia/NVIDIA-Nemotron-3-Super-120B-A12B-BF16) - Zhang, S. (2026, March 11). NVIDIA Ships Nemotron 3 Super - 120B Open Model for Agents. Awesome Agents. [https://awesomeagents.ai/news/nvidia-nemotron-3-super-120b-agentic-ai/](https://awesomeagents.ai/news/nvidia-nemotron-3-super-120b-agentic-ai/)Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen