NVIDIA präsentiert MiniMax-M3-NVFP4: Ein neues multimodales KI-Modell auf Hugging Face

Kategorien:

No items found.

Freigegeben:

June 27, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

NVIDIA hat ein quantisiertes Modell von MiniMax-M3 namens MiniMax-M3-NVFP4 auf Hugging Face veröffentlicht.
MiniMax-M3 ist ein multimodales Modell mit einem Mixture-of-Experts (MoE)-Architektur und einem Kontextfenster von 1 Million Token.
Das Modell verarbeitet Text-, Bild-, Video- und Computernutzungs-Inputs und generiert Text-Outputs.
Besonderer Fokus liegt auf langfristigen Programmieraufgaben, agentischen und Tool-Use-Workflows sowie dem Verständnis von Langform-Videos.
Die NVFP4-Quantisierung durch den Model Optimizer von NVIDIA zielt darauf ab, die Effizienz zu steigern.
Das Modell ist für die nicht-kommerzielle Nutzung freigegeben.
Die MiniMax Sparse Attention (MSA) ermöglicht eine erhebliche Beschleunigung und Reduzierung des Rechenaufwands bei langen Kontexten.

NVIDIA veröffentlicht MiniMax-M3-NVFP4 auf Hugging Face: Einblicke in ein multimodales Modell mit erweiterten Fähigkeiten

Die Landschaft der künstlichen Intelligenz entwickelt sich rasant, und die kontinuierliche Veröffentlichung neuer Modelle markiert wichtige Fortschritte. Aktuell hat NVIDIA ein quantisiertes Modell des MiniMax-M3, bekannt als MiniMax-M3-NVFP4, auf der Plattform Hugging Face zugänglich gemacht. Diese Entwicklung ist für Unternehmen im B2B-Sektor von Bedeutung, die an der Implementierung fortschrittlicher KI-Lösungen interessiert sind, insbesondere im Hinblick auf multimodale Verarbeitung und effiziente Ressourcennutzung.

Architektur und Kernfunktionen des MiniMax-M3

Das MiniMax-M3-Modell ist als multimodales System konzipiert, das auf einer Mixture-of-Experts (MoE)-Architektur basiert. Es zeichnet sich durch ein umfangreiches Kontextfenster von 1 Million Token aus und ist in der Lage, verschiedene Eingabeformate zu verarbeiten, darunter Text, Bilder, Videos und Computernutzungsdaten. Die Ausgabe erfolgt in Textform. Das Modell verfügt über ungefähr 428 Milliarden Parameter, wovon etwa 23 Milliarden aktiviert sind. Die zentralen Fähigkeiten des MiniMax-M3 umfassen: - Native Multimodalität: Das Modell wird von Beginn an mit gemischten Modalitäten trainiert, was eine tiefere semantische Fusion über Text, Bild und Video ermöglicht. - Kontextskalierung durch Sparse Attention: Eine Schlüsselkomponente ist die MiniMax Sparse Attention (MSA). Diese Technologie ist darauf ausgelegt, die Effizienz bei langen Kontexten zu verbessern. Im Vergleich zu früheren Modellen wie M2 soll MSA eine 9-fache Beschleunigung beim Prefill und eine 15-fache Beschleunigung beim Decodieren bei einem Kontext von 1 Million Token erreichen. Dies führt zu einer Reduzierung des Rechenaufwands pro Token auf ein Zwanzigstel. - Programmier- und Agentenfähigkeiten: Das Modell zeigt eine hohe Leistungsfähigkeit bei langfristigen agentischen Benchmarks, insbesondere in den Bereichen Programmierung und Kollaboration.

Die Rolle der NVFP4-Quantisierung

Das von NVIDIA bereitgestellte MiniMax-M3-NVFP4-Modell ist eine durch den Model Optimizer quantisierte Version. Quantisierung ist ein Verfahren, das darauf abzielt, die Größe und den Speicherbedarf von Modellen zu reduzieren und gleichzeitig die Inferenzgeschwindigkeit zu erhöhen, oft durch die Umwandlung von 32-Bit-Gleitkommazahlen in niedrigere Präzisionsformate wie NVFP4. Dies ist insbesondere für den Einsatz in Umgebungen mit begrenzten Hardware-Ressourcen oder hohen Leistungsanforderungen relevant. Die Quantisierung betrifft verschiedene Komponenten des Modells: - Die gerouteten Experten (gate_proj, up_proj, down_proj) sind in NVFP4 quantisiert. - Die Dense-MLP-Schichten und der shared-expert down_proj sind ebenfalls in NVFP4 ausgeführt. - Die Attention-Mechanismen (q/k/v/o) sowie der Router (mlp.gate, e_score_correction_bias) und die Embeddings sind in BF16 oder FP32 gehalten. - Der Vision Tower und der multimodale Projektor sind vollständig in BF16 erhalten. Diese detaillierte Quantisierungsstrategie deutet auf eine sorgfältige Abwägung zwischen Leistung und Effizienz hin, um die Kernfähigkeiten des Modells zu bewahren.

Anwendungsbereiche und Lizenzierung

Das MiniMax-M3-NVFP4-Modell ist für die nicht-kommerzielle Nutzung vorgesehen. Es wurde entwickelt, um eine Reihe von Anwendungsfällen zu unterstützen, die von der Verarbeitung komplexer multimodaler Daten bis hin zur Unterstützung bei Programmieraufgaben und der Automatisierung von Workflows reichen. Für Unternehmen, die innovative KI-Lösungen evaluieren, bietet dieses Modell potenziell neue Möglichkeiten in Bereichen wie: - Automatisierte Code-Generierung und -Optimierung: Die Fähigkeit zu "frontier-level coding" könnte die Entwicklungseffizienz steigern. - Intelligente Agenten und Tool-Use: Für komplexe Aufgaben, die den Einsatz mehrerer Tools oder die Interaktion mit verschiedenen Systemen erfordern. - Erweitertes Video- und Bildverständnis: Analyse und Interpretation von visuellen Daten in einem größeren Kontext. Es ist wichtig zu beachten, dass dieses Modell nicht von NVIDIA entwickelt oder besessen wird, sondern auf Anforderungen Dritter für spezifische Anwendungen zugeschnitten wurde. Die Nutzung des Modells unterliegt der MiniMax Community License.

Technische Details und Performance

Die MiniMax Sparse Attention (MSA) ist ein zentrales Element für die Effizienz des M3-Modells. Im Vergleich zu herkömmlichen GQA-Ansätzen reduziert MSA den Rechenaufwand und den Speicherbedarf der Attention-Mechanismen erheblich, während die Modellqualität erhalten bleibt. Dies ermöglicht es dem Modell, Millionen von Token im Kontext zu verarbeiten, ohne dabei an Leistung einzubüßen. Die Gesamtgröße des Modells beträgt 259 GB, was den Betrieb auf 4 GPUs mit jeweils 96 GB ermöglicht, wobei noch Headroom für den KV-Cache verbleibt. Dies unterstreicht die Notwendigkeit robuster Hardware-Ressourcen für den Betrieb des vollen Modells, selbst in seiner quantisierten Form.

Reaktionen aus der Community

Die Veröffentlichung des Modells hat in der Community auf Hugging Face und X (ehemals Twitter) erste Reaktionen hervorgerufen. Einige Nutzer berichten von Herausforderungen bei der Performance, während andere die Initiative begrüßen. Solche Rückmeldungen sind typisch für die Anfangsphase der Bereitstellung neuer Modelle und tragen zur weiteren Optimierung und Anpassung bei. Die Bereitstellung des MiniMax-M3-NVFP4 durch NVIDIA auf Hugging Face stellt einen wichtigen Beitrag zur Zugänglichkeit fortschrittlicher multimodaler KI-Modelle dar. Für B2B-Anwendungen, die eine hohe Effizienz und vielseitige Fähigkeiten erfordern, könnte dieses Modell eine vielversprechende Option für die Entwicklung neuer Produkte und Dienstleistungen darstellen. Die kontinuierliche Forschung und Entwicklung in diesem Bereich wird voraussichtlich weitere Fortschritte in der multimodalen KI ermöglichen.

Bibliographie

- MiniMax-M3-NVFP4 auf Hugging Face: https://huggingface.co/nvidia/MiniMax-M3-NVFP4 - MiniMax-M3 Space von akhaliq: https://huggingface.co/spaces/akhaliq/MiniMax-M3 - MiniMax-M3 Readme-Datei: https://huggingface.co/MiniMaxAI/MiniMax-M3/raw/ca22f9aa9ab883c93f0154f6f94e0f585ee60e21/README.md - NVIDIA-NeMo/Automodel Commit: feat: add MiniMax M3 VL (#2538): https://github.com/NVIDIA-NeMo/Automodel/commit/57b518e6476f79ecdd4ff61d476a79dbb3bba6be - NVIDIA AI Post auf X: https://x.com/NVIDIAAI/status/2070351378745311662