NVIDIA stellt Nemotron 3 Nano Omni vor: Fortschritte in der multimodalen KI-Technologie

Kategorien:

No items found.

Freigegeben:

April 30, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Der schnelle Überblick

NVIDIA hat Nemotron 3 Nano Omni vorgestellt, ein multimodales Modell, das Text, Bild, Video und Audio in einem einzigen Inferenzprozess vereint.
Das Modell basiert auf einer hybriden Mixture-of-Experts (MoE)-Architektur und einem Nemotron 3 Nano 30B-A3B Rückgrat, ergänzt durch spezifische Encoder für visuelle und auditive Daten.
Es bietet native Audio-Unterstützung und verbesserte Schlussfolgerungsfähigkeiten über alle Modalitäten hinweg.
Nemotron 3 Nano Omni erreicht eine deutlich höhere Inferenz-Effizienz und einen höheren Durchsatz als vergleichbare Modelle.
Das Modell ist quelloffen und unterstützt die Anpassung und Bereitstellung in verschiedenen Umgebungen, von lokalen Systemen bis hin zu Cloud-Infrastrukturen.
NVIDIA stellt die Modell-Checkpoints in verschiedenen Präzisionsformaten (BF16, FP8, FP4) sowie Trainingsdaten und Code zur Verfügung, um Forschung und Entwicklung zu fördern.

NVIDIA Nemotron 3 Nano Omni: Eine neue Ära der multimodalen KI-Inferenz

Die Entwicklung von Künstlicher Intelligenz (KI) schreitet in rasantem Tempo voran, wobei multimodale Modelle, die verschiedene Datenarten wie Text, Bilder, Videos und Audio verarbeiten können, eine Schlüsselrolle spielen. NVIDIA hat mit der Einführung von Nemotron 3 Nano Omni ein solches Modell vorgestellt, das darauf abzielt, die Inferenz multimodaler KI zu vereinheitlichen und damit die Effizienz und Leistungsfähigkeit von KI-Agenten erheblich zu steigern.

Die Herausforderung fragmentierter KI-Architekturen

Bisherige KI-Agentensysteme, die in der Lage sein sollten, visuelle, akustische und sprachliche Informationen zu verarbeiten, waren oft auf fragmentierte Architekturen angewiesen. Dies bedeutete, dass separate Modelle für jede Modalität – ein Sehmodell für Bilder, ein Sprachmodell für Audio und ein Sprachmodell für die Textverarbeitung – miteinander verbunden werden mussten. Dieser Ansatz führte zu erhöhter Latenz aufgrund wiederholter Inferenzdurchläufe, fragmentierter Kontext über die Modalitäten hinweg und erhöhten Kosten sowie potenziellen Ungenauigkeiten im Laufe der Zeit. Die Orchestrierung solcher Pipeline-Systeme war komplex und fehleranfällig, was die Skalierbarkeit und Effizienz von KI-Anwendungen beeinträchtigte.

Nemotron 3 Nano Omni: Eine integrierte Lösung

NVIDIA Nemotron 3 Nano Omni wurde entwickelt, um diese Herausforderungen zu überwinden. Es ist ein offenes multimodales Modell, das die Fähigkeiten von Bild, Audio und Sprache in einem einzigen System zusammenführt. Dadurch können KI-Agenten schnellere und intelligentere Antworten mit erweiterten Schlussfolgerungsfähigkeiten über Video, Audio, Bild und Text hinweg liefern.

Das Modell ist auf einem Nemotron 3 Nano 30B-A3B Hybrid Mixture-of-Experts (MoE) Backbone aufgebaut. Diese Architektur kombiniert Mamba-Layer für Sequenz- und Speichereffizienz mit Standard-Transformer-Layern für präzise logische Schlussfolgerungen. Dies führt zu einer bis zu viermal besseren Speicher- und Recheneffizienz im Vergleich zu dichten Alternativen. Durch die Integration von visuellen und auditiven Encodern in diese Architektur entfällt die Notwendigkeit separater Wahrnehmungsmodelle, was die Inferenz-Effizienz erheblich steigert.

Architektur und technische Innovationen

Nemotron 3 Nano Omni zeichnet sich durch mehrere technische Fortschritte aus:

Verbessertes LLM-Rückgrat: Das Modell ersetzt das dichte Nemotron Nano V2 12B Hybrid-Rückgrat durch das Nemotron 3 Nano 30B-A3B MoE Hybrid-Rückgrat, was eine effizientere Verarbeitung langer multimodaler Sequenzen und einen höheren Inferenz-Durchsatz ermöglicht.
Native Audio-Unterstützung: Neben Text, Bildern und Videos unterstützt das Modell nun auch nativ Audioeingaben. Hierfür werden Audioeingaben auf 16 kHz Mono neu abgetastet und mit dem Parakeet-TDT-0.6B-v2 FastConformer-Encoder verarbeitet.
Dynamische Bildauflösung: Anstelle einer kachelbasierten Bildverarbeitung wird eine dynamische Auflösungsstrategie verwendet, die native Seitenverhältnisse besser bewahrt. Bilder werden in variable 16x16-Patches zerlegt, wobei die Anzahl der visuellen Tokens pro Bild zwischen 1.024 und 13.312 begrenzt ist.
Temporale Videokompression: Eine Conv3D-basierte temporale Kompression für Videos reduziert die Anzahl der temporalen Tokens um das Zweifache. Dies wird durch die Zusammenführung von jeweils zwei aufeinanderfolgenden Frames in ein einziges "Tubelet" vor dem ersten ViT-Block erreicht.
Erweiterte Kontextlänge: Die maximale Kontextlänge wurde von 128K auf 256K Tokens erhöht, was die Leistung bei multimodalen Schlussfolgerungsaufgaben mit langem Kontext verbessert.

Für multimodale Eingaben, die sowohl visuelle als auch auditive Ströme enthalten, werden die Modalitätstokens in zeitlicher Reihenfolge während der Sequenzerstellung verschachtelt, um eine gemeinsame zeitliche Schlussfolgerung über die Modalitäten hinweg zu ermöglichen.

Training und Datensätze

Das Training eines omnimodalen Modells mit heterogenen Encodern erfordert eine sorgfältige Orchestrierung. NVIDIA verfolgt eine gestufte Trainingsstrategie, die zunächst ein überwachtes Fine-Tuning (SFT) durchführt, um die Modalitäten schrittweise auszurichten, das Befolgen multimodaler Anweisungen zu verbessern und die Kontextkapazität zu erweitern. Anschließend folgt ein Reinforcement Learning (RL), um die Schlussfolgerungsfähigkeiten und die Sicherheit weiter zu verfeinern.

Das SFT-Pipeline ist in sieben Stufen unterteilt, die schrittweise neue Modalitäten einführen und die Kontextlänge erhöhen. Dies soll eine stabile modalitätsübergreifende Ausrichtung fördern und katastrophales Vergessen mindern. Die RL-Phase umfasst mehrere Runden des Reinforcement Learnings, um die Befolgung von Anweisungen, das Schlussfolgern und die Sicherheitsausrichtung für Text-, Bild- und Videomodalitäten weiter zu verbessern. Dies geschieht durch Techniken wie Mixed Preference Optimization (MPO), Text-RL, Image-RL und Omni-RL.

NVIDIA stellt einen Großteil der Trainingsdaten und des Codes zur Verfügung, darunter das Nemotron-Image-Training-v3 mit etwa 6,9 Millionen Trainingsbeispielen und Beispiele für Datengenerierungspipelines.

Leistungsfähigkeit und Effizienz

Nemotron 3 Nano Omni liefert konsistente Genauigkeitsverbesserungen gegenüber seinem Vorgänger, Nemotron Nano V2 VL, über alle Modalitäten hinweg. Es erzielt führende Ergebnisse im Bereich des Dokumentenverständnisses, der langen Audio-Video-Komprehension und der agentischen Computernutzung. Insbesondere übertrifft es auf verschiedenen Benchmarks, wie OCRBench-V2, MMLongBench-DOC, WorldSense und DailyOmni, andere Modelle in seiner Klasse.

Die Effizienz des Modells ist ebenfalls ein zentraler Aspekt. Auf NVIDIA B200 GPUs erreicht Nemotron 3 Nano Omni einen dreifach höheren Single-Stream-Output-Token-Durchsatz als Qwen3-Omni und einen neunfach höheren Output-Token-Durchsatz pro GPU bei einem festen Interaktivitätsziel. Dies führt zu deutlich geringeren Inferenz-Latenzen und einem höheren Durchsatz.

Techniken wie Conv3D und Efficient Video Sampling (EVS) tragen maßgeblich zur Reduzierung der Kosten für lange Videoeingaben bei. Conv3D reduziert die Anzahl der visuellen Tokens um die Hälfte, während EVS temporär redundante Daten verwirft, bevor sie das Sprachmodell erreichen. Diese Kombination kann den Input-Token-Count für ein 512-Frame-Video um bis zu 70 % reduzieren, was die Time-To-First-Token (TTFT) erheblich verkürzt.

Auch die Quantisierung spielt eine Rolle bei der Effizienzsteigerung. Nemotron 3 Nano Omni unterstützt FP8- und NVFP4-Quantisierung, was den Speicherbedarf reduziert und den Durchsatz erhöht, mit einem medianen Genauigkeitsverlust von weniger als 1 % im Vergleich zu BF16-Präzision.

Anwendungsbereiche und Offenheit

Nemotron 3 Nano Omni ist als offenes Modell konzipiert, das Entwicklern volle Transparenz und Kontrolle über die Anpassung und Bereitstellung bietet. Es ist auf Hugging Face und über NVIDIA NIM Microservices verfügbar und kann in verschiedenen Umgebungen eingesetzt werden, von lokalen Systemen wie NVIDIA Jetson Hardware bis hin zu Rechenzentren und Cloud-Umgebungen.

Das Modell ist ideal für eine neue Klasse multimodaler Agenten:

Computer-Nutzungsagenten: Sie können den UI-Zustand aus Bildschirmaufzeichnungen verstehen, Anweisungen interpretieren und Workflows ausführen.
Dokumenten-Intelligenzsysteme: Sie können PDFs, Diagramme, Tabellen und Screenshots in einem einzigen Durchlauf verarbeiten.
Audio- und Videoagenten: Sie verarbeiten Gespräche, Aufzeichnungen und visuellen Kontext gemeinsam für Kundenservice, Überwachung und Forschung.

Die Offenheit des Modells ermöglicht es Unternehmen, es an spezifische Domänen und Anforderungen anzupassen, ohne Kompromisse bei der Datensouveränität oder dem Datenschutz eingehen zu müssen. Durch die Bereitstellung von Gewichten, Datensätzen und Trainingsrezepten fördert NVIDIA die weitere Forschung und Entwicklung in diesem Bereich.

Nemotron 3 Nano Omni stellt einen bedeutenden Schritt in der Entwicklung multimodaler KI dar. Durch die Vereinheitlichung von Wahrnehmungs- und Inferenzprozessen über verschiedene Modalitäten hinweg bietet es eine leistungsstarke und effiziente Grundlage für die nächste Generation von KI-Agenten.

Bibliographie

NVIDIA. (2026). Nemotron 3 Nano Omni: Efficient and Open Multimodal Intelligence. ArXiv.org. Verfügbar unter: https://arxiv.org/html/2604.24954
Daws, R. (2026). NVIDIA Nemotron 3 Nano Omni: Unifying multimodal AI inference. Developer-Tech.com. Verfügbar unter: https://www.developer-tech.com/news/nvidia-nemotron-3-nano-omni-unifying-multimodal-ai-inference/
Shah, A. (2026). NVIDIA Nemotron 3 Nano Omni Powers Multimodal Agent Reasoning in a Single Efficient Open Model. NVIDIA Developer Blog. Verfügbar unter: https://developer.nvidia.com/blog/nvidia-nemotron-3-nano-omni-powers-multimodal-agent-reasoning-in-a-single-efficient-open-model/
Sultanbekova, A. (2026). Introducing NVIDIA Nemotron 3 Nano Omni on DeepInfra. DeepInfra Blog. Verfügbar unter: https://deepinfra.com/blog/nvidia-nemotron-3-nano-omni-release
Bylygbashi, B. (2026). NVIDIA Nemotron™ 3 Nano Omni Is Now Available on fal | fal.ai. fal.ai Learn. Verfügbar unter: https://fal.ai/learn/devs/nemotron-3-nano-omni-is-now-on-fal
Briski, K. (2026). NVIDIA Launches Nemotron 3 Nano Omni Model, Unifying Vision, Audio and Language for up to 9x More Efficient AI Agents. NVIDIA Blog. Verfügbar unter: https://blogs.nvidia.com/blog/nemotron/
NVIDIA. (2025). NVIDIA Nemotron 3 Family of Models. NVIDIA Nemotron Research Page. Verfügbar unter: https://research.nvidia.com/labs/nemotron/Nemotron-3/
NVIDIA. (2025). Nemotron 3 Nano: Open, Efficient Mixture-of-Experts Hybrid Mamba-Transformer Model for Agentic Reasoning. NVIDIA Research. Verfügbar unter: https://research.nvidia.com/labs/nemotron/files/NVIDIA-Nemotron-3-Nano-Technical-Report.pdf
GMI Cloud. (2026). NVIDIA Nemotron 3 Nano Omni: Multimodal Model for Vision, Audio & Text. GMI Cloud Blog. Verfügbar unter: https://gmicloud.ai/en/blog/running-nvidia-nemotron-3-nano-omni-on-gmi-cloud