Für Teams, Einzelnutzer, Kanzleien und Transkription – derselbe Mindverse Look, klar aufgeteilt nach Anwendungsfall.
für Teams und Unternehmen
Die Plattform für Unternehmen, die eigene KI-Workflows, Wissensdatenbanken und Assistenten produktiv einsetzen möchten.
für Einzelnutzer und Creator
Der einfachste Einstieg in das Mindverse-Ökosystem für Content, Recherche, Bilder, Audio und produktives Arbeiten.
für Juristen und Kanzleien
Die spezialisierte KI-Lösung für juristische Recherche, Vertragsarbeit und kanzleispezifische Workflows.
für Audio, Meetings und Transkription
Schnelle KI-Transkription für Audiodateien und Meetings – ideal zum sofortigen Start oder für regelmäßige Nutzung.

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die Landschaft der Künstlichen Intelligenz wird zunehmend von der Entwicklung und Optimierung großer Sprachmodelle (LLMs) geprägt. Eine der vielversprechendsten Architekturen in diesem Bereich sind die Mixture-of-Experts (MoE)-Modelle. Diese Modelle ermöglichen es, die Gesamtparameterzahl in die Milliarden zu steigern, während die pro Token benötigte Rechenleistung konstant bleibt, indem sie pro Eingabe nur eine Teilmenge spezialisierter „Experten“ aktivieren.
Forschende des Allen Institute for AI und der University of California, Berkeley, haben nun einen signifikanten Fortschritt in diesem Bereich erzielt. Ihr neu entwickeltes MoE-Modell mit dem Namen EMO (Emergent Modularity) zeigt, dass es möglich ist, nahezu die volle Leistung eines Modells zu erzielen, während nur ein Bruchteil seiner Experten – konkret 12,5 Prozent – aktiv ist. Diese Entwicklung könnte weitreichende Implikationen für die Effizienz und Zugänglichkeit von LLMs haben, insbesondere für den Einsatz in ressourcenbeschränkten Umgebungen oder für spezialisierte Anwendungsfälle.
Traditionelle MoE-Modelle aktivieren zwar nur eine kleine Anzahl von Experten pro Token, doch müssen alle Experten des vollständigen Modells im Speicher vorgehalten werden. Dies stellt eine erhebliche Anforderung an die Hardware dar und beschränkt die praktische Anwendbarkeit in vielen Szenarien. Ein weiteres Problem besteht darin, dass die Experten in herkömmlichen MoE-Architekturen dazu neigen, sich auf oberflächliche Sprachmuster wie Präpositionen oder Satzzeichen zu spezialisieren, anstatt kohärente, höhere Domänen wie Mathematik oder Biologie zu lernen. Dies erschwert die gezielte Auswahl und das „Abschneiden“ von Expertenteilmengen für spezifische Aufgaben, ohne die Gesamtleistung des Modells zu beeinträchtigen.
Das EMO-Modell begegnet diesen Herausforderungen durch einen innovativen Trainingsansatz. Anstatt Trainingsdaten vorab in fest definierte Domänen zu kategorisieren, nutzen die Forschenden Dokumentgrenzen als Signal. Die Annahme ist, dass alle Token innerhalb eines Dokuments in der Regel derselben Domäne angehören. EMO zwingt alle Token eines Dokuments dazu, ihre aktiven Experten aus einem gemeinsamen Pool auszuwählen. Das Modell bestimmt dabei, welche Experten zu diesem Pool gehören, indem es die Router-Präferenzen über alle Token eines Dokuments mittelt und die am häufigsten ausgewählten Experten beibehält.
Zwei wichtige Anpassungen waren für die Stabilität dieses Trainingsansatzes erforderlich:
Das Forschungsteam trainierte ein MoE-Modell mit 1 Milliarde aktiven und 14 Milliarden Gesamtparametern, das 128 Experten umfasste, von denen acht pro Token aktiv waren. Dies geschah auf 1 Billion Token aus dem OLMoE-Vortrainingskorpus. EMO erreichte dabei als vollständiges Modell die Leistung eines identisch trainierten Standard-MoE und übertraf laut den Forschenden OLMoE, obwohl es fünfmal mehr Daten verwendete.
Die entscheidende Erkenntnis zeigte sich, als Experten aus dem Modell entfernt wurden. Selbst bei einer Reduzierung auf nur 25 Prozent der Experten (32 von 128) verzeichnete EMO einen Leistungsabfall von lediglich etwa einem Prozentpunkt über mehrere Benchmarks hinweg. Bei einer noch drastischeren Reduzierung auf 12,5 Prozent der Experten (16 Experten) betrug der Rückgang etwa drei Prozentpunkte. Im Vergleich dazu bricht ein Standard-MoE in ähnlichen Szenarien drastisch ein, mit Leistungsverlusten von 10 bis 15 Prozentpunkten und fällt teilweise sogar unter das Niveau eines dichten Modells mit gleicher aktiver Parameteranzahl.
Besonders hervorzuheben ist, dass EMO-Untergruppen mit nur 12,5 Prozent der Experten nach einem Fine-Tuning auf dem Mathematik-Benchmark GSM8K wieder die volle Modellleistung erreichen konnten. Die Fähigkeit, die richtigen Experten zu identifizieren, erfordert zudem nur wenig Daten: Ein einziges Few-Shot-Beispiel reicht aus, um eine Untergruppe auszuwählen, die vergleichbar mit einer auf einem vollständigen Validierungsdatensatz ausgewählten Gruppe performt.
Um die Funktionsweise von EMO tiefer zu ergründen, analysierten die Forschenden, wie das Modell Token intern auf Experten verteilt. Die Analyse der Token-Cluster zeigte einen klaren Unterschied zu Standard-MoE-Modellen. Während Expertengruppen in Standard-MoEs oberflächliche linguistische Kategorien wie Präpositionen oder Eigennamen abbildeten, bildeten EMOs Cluster tatsächliche Themenbereiche ab, wie zum Beispiel Gesundheit, US-Politik, Film- und Musikrezensionen. Token aus demselben Dokument konvergierten in EMO auf einen einzigen Cluster, während sie sich in einem Standard-MoE über viele verteilten.
Diese thematische Spezialisierung wurde durch eine Untersuchung von 20 Millionen Dokumenten aus dem WebOrganizer-Datensatz mit 24 manuell zugewiesenen Domänenlabels bestätigt. In EMO trennten sich die Muster viel sauberer, insbesondere in den tieferen Schichten des Modells, während sie in Standard-MoEs stärker überlappten.
Die offensichtlichste Anwendung von EMO liegt im Betrieb von Modellen in speicherbeschränkten Umgebungen, wo nur domänenrelevante Experten geladen werden müssen. In direkten Vergleichen übertrafen oder erreichten EMO-Expertenteilgruppen sowohl ein Standard-MoE mit 32 Experten als auch ein von Grund auf neu trainiertes dichtes Modell mit acht aktiven Parametern.
Darüber hinaus eröffnen sich weitere Anwendungsbereiche:
Das Allen Institute for AI stellt das EMO-Modell, eine vergleichbar trainierte Standard-MoE-Baseline sowie den Trainingscode öffentlich zur Verfügung. Eine interaktive Demonstration der Token-Aktivierungen ist ebenfalls verfügbar. Offene Fragen betreffen noch die optimale Auswahl und Kombination von Expertenteilgruppen, das Fine-Tuning einzelner Module für spezifische Aufgaben und wie die modulare Struktur zur Verbesserung der Interpretierbarkeit von Modellen genutzt werden kann.
Die Forschung an EMO stellt einen bedeutenden Schritt zur Steigerung der Effizienz und Anwendbarkeit von Mixture-of-Experts-Modellen dar. Die Fähigkeit, nahezu die volle Leistung mit einem stark reduzierten Expertensatz zu erhalten, adressiert eine zentrale Herausforderung bei der Bereitstellung und Skalierung von LLMs. Die domänenspezifische Emergenz von Experten durch den innovativen Trainingsansatz von EMO könnte nicht nur die Hardware-Anforderungen senken, sondern auch zu spezialisierteren und besser kontrollierbaren KI-Systemen führen. Dies ist ein vielversprechender Weg, um die Potenziale von Milliarden-Parameter-Modellen breiter zugänglich zu machen und ihre Integration in vielfältige B2B-Anwendungen zu erleichtern.
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen