Neues Mixture-of-Experts-Modell EMO erreicht hohe Effizienz mit reduzierter Expertendichte

Kategorien:

No items found.

Freigegeben:

May 17, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

Forschende des Allen Institute for AI und der UC Berkeley haben ein Mixture-of-Experts (MoE)-Modell namens EMO entwickelt, das nahezu volle Leistung mit nur 12,5 % seiner Experten erbringt.
Der Schlüssel dazu ist eine neuartige Trainingsmethodik, die Dokumentgrenzen nutzt, um Experten zur Spezialisierung auf höhere thematische Ebenen statt auf oberflächliche Sprachmuster zu bewegen.
Diese domänenspezifische Spezialisierung ermöglicht eine aggressive Reduzierung der aktiven Experten ohne signifikanten Leistungsverlust, was zu erheblichen Einsparungen bei Speicher und Rechenleistung führt.
EMO behält selbst bei einer Reduzierung auf 25 % der Experten (32 von 128) einen Leistungsabfall von nur etwa einem Prozentpunkt bei. Bei 12,5 % (16 Experten) liegt der Abfall bei rund drei Prozentpunkten.
Die Technologie eröffnet neue Möglichkeiten für den Einsatz großer Sprachmodelle (LLMs) in ressourcenbeschränkten Umgebungen und für spezialisierte Anwendungen.

Die Landschaft der Künstlichen Intelligenz wird zunehmend von der Entwicklung und Optimierung großer Sprachmodelle (LLMs) geprägt. Eine der vielversprechendsten Architekturen in diesem Bereich sind die Mixture-of-Experts (MoE)-Modelle. Diese Modelle ermöglichen es, die Gesamtparameterzahl in die Milliarden zu steigern, während die pro Token benötigte Rechenleistung konstant bleibt, indem sie pro Eingabe nur eine Teilmenge spezialisierter „Experten“ aktivieren.

Forschende des Allen Institute for AI und der University of California, Berkeley, haben nun einen signifikanten Fortschritt in diesem Bereich erzielt. Ihr neu entwickeltes MoE-Modell mit dem Namen EMO (Emergent Modularity) zeigt, dass es möglich ist, nahezu die volle Leistung eines Modells zu erzielen, während nur ein Bruchteil seiner Experten – konkret 12,5 Prozent – aktiv ist. Diese Entwicklung könnte weitreichende Implikationen für die Effizienz und Zugänglichkeit von LLMs haben, insbesondere für den Einsatz in ressourcenbeschränkten Umgebungen oder für spezialisierte Anwendungsfälle.

Die Herausforderung der MoE-Modelle

Traditionelle MoE-Modelle aktivieren zwar nur eine kleine Anzahl von Experten pro Token, doch müssen alle Experten des vollständigen Modells im Speicher vorgehalten werden. Dies stellt eine erhebliche Anforderung an die Hardware dar und beschränkt die praktische Anwendbarkeit in vielen Szenarien. Ein weiteres Problem besteht darin, dass die Experten in herkömmlichen MoE-Architekturen dazu neigen, sich auf oberflächliche Sprachmuster wie Präpositionen oder Satzzeichen zu spezialisieren, anstatt kohärente, höhere Domänen wie Mathematik oder Biologie zu lernen. Dies erschwert die gezielte Auswahl und das „Abschneiden“ von Expertenteilmengen für spezifische Aufgaben, ohne die Gesamtleistung des Modells zu beeinträchtigen.

EMO: Eine neue Ära der Expertenspezialisierung

Das EMO-Modell begegnet diesen Herausforderungen durch einen innovativen Trainingsansatz. Anstatt Trainingsdaten vorab in fest definierte Domänen zu kategorisieren, nutzen die Forschenden Dokumentgrenzen als Signal. Die Annahme ist, dass alle Token innerhalb eines Dokuments in der Regel derselben Domäne angehören. EMO zwingt alle Token eines Dokuments dazu, ihre aktiven Experten aus einem gemeinsamen Pool auszuwählen. Das Modell bestimmt dabei, welche Experten zu diesem Pool gehören, indem es die Router-Präferenzen über alle Token eines Dokuments mittelt und die am häufigsten ausgewählten Experten beibehält.

Zwei wichtige Anpassungen waren für die Stabilität dieses Trainingsansatzes erforderlich:

Globale Lastverteilung: Die Berechnung der Lastverteilung, die darauf abzielt, die Arbeit gleichmäßig auf die Experten zu verteilen, wurde nicht mehr lokal pro Trainings-Batch durchgeführt, sondern global über viele Dokumente. Dies verhindert Konflikte zwischen der Bündelung von Token innerhalb eines Dokuments und der Verteilung auf möglichst viele Experten.
Variierende Poolgrößen: Die Größe des Dokumentpools wurde während des Trainings zufällig variiert. Dies trainiert das Modell, zur Inferenzzeit mit Expertenteilmengen unterschiedlicher Größe umzugehen.

Beeindruckende Leistung bei reduzierter Expertendichte

Das Forschungsteam trainierte ein MoE-Modell mit 1 Milliarde aktiven und 14 Milliarden Gesamtparametern, das 128 Experten umfasste, von denen acht pro Token aktiv waren. Dies geschah auf 1 Billion Token aus dem OLMoE-Vortrainingskorpus. EMO erreichte dabei als vollständiges Modell die Leistung eines identisch trainierten Standard-MoE und übertraf laut den Forschenden OLMoE, obwohl es fünfmal mehr Daten verwendete.

Die entscheidende Erkenntnis zeigte sich, als Experten aus dem Modell entfernt wurden. Selbst bei einer Reduzierung auf nur 25 Prozent der Experten (32 von 128) verzeichnete EMO einen Leistungsabfall von lediglich etwa einem Prozentpunkt über mehrere Benchmarks hinweg. Bei einer noch drastischeren Reduzierung auf 12,5 Prozent der Experten (16 Experten) betrug der Rückgang etwa drei Prozentpunkte. Im Vergleich dazu bricht ein Standard-MoE in ähnlichen Szenarien drastisch ein, mit Leistungsverlusten von 10 bis 15 Prozentpunkten und fällt teilweise sogar unter das Niveau eines dichten Modells mit gleicher aktiver Parameteranzahl.

Besonders hervorzuheben ist, dass EMO-Untergruppen mit nur 12,5 Prozent der Experten nach einem Fine-Tuning auf dem Mathematik-Benchmark GSM8K wieder die volle Modellleistung erreichen konnten. Die Fähigkeit, die richtigen Experten zu identifizieren, erfordert zudem nur wenig Daten: Ein einziges Few-Shot-Beispiel reicht aus, um eine Untergruppe auszuwählen, die vergleichbar mit einer auf einem vollständigen Validierungsdatensatz ausgewählten Gruppe performt.

Experten lernen Themen, nicht Grammatik

Um die Funktionsweise von EMO tiefer zu ergründen, analysierten die Forschenden, wie das Modell Token intern auf Experten verteilt. Die Analyse der Token-Cluster zeigte einen klaren Unterschied zu Standard-MoE-Modellen. Während Expertengruppen in Standard-MoEs oberflächliche linguistische Kategorien wie Präpositionen oder Eigennamen abbildeten, bildeten EMOs Cluster tatsächliche Themenbereiche ab, wie zum Beispiel Gesundheit, US-Politik, Film- und Musikrezensionen. Token aus demselben Dokument konvergierten in EMO auf einen einzigen Cluster, während sie sich in einem Standard-MoE über viele verteilten.

Diese thematische Spezialisierung wurde durch eine Untersuchung von 20 Millionen Dokumenten aus dem WebOrganizer-Datensatz mit 24 manuell zugewiesenen Domänenlabels bestätigt. In EMO trennten sich die Muster viel sauberer, insbesondere in den tieferen Schichten des Modells, während sie in Standard-MoEs stärker überlappten.

Anwendungsfälle jenseits der Speichereinsparung

Die offensichtlichste Anwendung von EMO liegt im Betrieb von Modellen in speicherbeschränkten Umgebungen, wo nur domänenrelevante Experten geladen werden müssen. In direkten Vergleichen übertrafen oder erreichten EMO-Expertenteilgruppen sowohl ein Standard-MoE mit 32 Experten als auch ein von Grund auf neu trainiertes dichtes Modell mit acht aktiven Parametern.

Darüber hinaus eröffnen sich weitere Anwendungsbereiche:

Laufzeit-Fine-Tuning: Modelle könnten zur Laufzeit feinabgestimmt werden. Eine kinderfreundliche Anwendung könnte beispielsweise Cluster deaktivieren, die auf Spam, Glücksspiel oder nicht jugendfreie Inhalte reagieren.
Modellüberwachung: EMO könnte die Überwachung von Modellen erleichtern, da die Expertenspezialisierung sichtbar macht, welche Teile des Modells für eine bestimmte Eingabe verwendet werden.

Das Allen Institute for AI stellt das EMO-Modell, eine vergleichbar trainierte Standard-MoE-Baseline sowie den Trainingscode öffentlich zur Verfügung. Eine interaktive Demonstration der Token-Aktivierungen ist ebenfalls verfügbar. Offene Fragen betreffen noch die optimale Auswahl und Kombination von Expertenteilgruppen, das Fine-Tuning einzelner Module für spezifische Aufgaben und wie die modulare Struktur zur Verbesserung der Interpretierbarkeit von Modellen genutzt werden kann.

Ausblick und Fazit

Die Forschung an EMO stellt einen bedeutenden Schritt zur Steigerung der Effizienz und Anwendbarkeit von Mixture-of-Experts-Modellen dar. Die Fähigkeit, nahezu die volle Leistung mit einem stark reduzierten Expertensatz zu erhalten, adressiert eine zentrale Herausforderung bei der Bereitstellung und Skalierung von LLMs. Die domänenspezifische Emergenz von Experten durch den innovativen Trainingsansatz von EMO könnte nicht nur die Hardware-Anforderungen senken, sondern auch zu spezialisierteren und besser kontrollierbaren KI-Systemen führen. Dies ist ein vielversprechender Weg, um die Potenziale von Milliarden-Parameter-Modellen breiter zugänglich zu machen und ihre Integration in vielfältige B2B-Anwendungen zu erleichtern.

Quellen

Allen Institute for AI. (2026, May 8). EMO: Allen AI's 14B MoE model uses 12.5% of experts per task. TPS. Retrieved from https://tpsreport.news/news/allen-ai-emo-moe-emergent-modularity
Allen Institute for AI. (n.d.). EMO: Emergent Modularity for Modular Deployment of MoE Models. Retrieved from https://allenai.org/papers/emo
Allen Institute for AI. (n.d.). EMO: Emergent Modularity for Modular Deployment of MoE Models. Retrieved from https://allenai.org/blog/emo
Jaiswal, A., Wang, J., Li, Y., Li, P., Chen, T., Wang, Z., ... & Du, X. (2025). Finding Fantastic Experts in MoEs: A Unified Study for Expert Dropping Strategies and Observations. arXiv preprint arXiv:2504.05586.
Kemper, J. (2026, May 16). Researchers train AI model that hits near-full performance with just 12.5 percent of its experts. The Decoder. Retrieved from https://the-decoder.com/researchers-train-ai-model-that-hits-near-full-performance-with-just-12-5-percent-of-its-experts/
Nakamura, T., Akiba, T., Fujii, K., Oda, Y., Yokota, R., & Suzuki, J. (2025). Drop-Upcycling: Training Sparse Mixture of Experts with Partial Re-initialization. arXiv preprint arXiv:2502.19261.
The Modelwire. (2026, May 16). Researchers train AI model that hits near-full performance with just .... Retrieved from https://www.themodelwire.com/article/researchers-train-ai-model-that-hits-near-full-performance-with-just-12-5-percen-01KRQX1AWXPBST7QS24PXJWEAD
Thomas, J. (n.d.). Qwen3.5 50% expert reduction success. Hacker News. Retrieved from https://news.ycombinator.com/item?id=47792897
v-Team, S. (2025). SIGMA-MOE-TINY TECHNICAL REPORT. arXiv preprint arXiv:2512.16248.
Zoph, B., Bello, I., Kumar, S., Du, N., Huang, Y., Dean, J., ... & Fedus, W. (2022). DESIGNING EFFECTIVE SPARSE EXPERT MODELS. arXiv preprint arXiv:2202.08906v1.
Zhang, Y., Chen, Z., & Zhong, Z. (2022). Collaboration of Experts: Achieving 80% Top-1 Accuracy on ImageNet with 100M FLOPs. Proceedings of the 39th International Conference on Machine Learning, PMLR 162:26068-26084.
Dwivedi, C., Huang, B., Gupta, H., Jayarao, P., Varshney, N., & Yin, B. (2026). Expert Upcycling: Shifting the Compute-Efficient Frontier of Mixture-of-Experts. arXiv preprint arXiv:2604.19835v2.