Für Teams, Einzelnutzer, Kanzleien und Transkription – derselbe Mindverse Look, klar aufgeteilt nach Anwendungsfall.
für Teams und Unternehmen
Die Plattform für Unternehmen, die eigene KI-Workflows, Wissensdatenbanken und Assistenten produktiv einsetzen möchten.
für Einzelnutzer und Creator
Der einfachste Einstieg in das Mindverse-Ökosystem für Content, Recherche, Bilder, Audio und produktives Arbeiten.
für Juristen und Kanzleien
Die spezialisierte KI-Lösung für juristische Recherche, Vertragsarbeit und kanzleispezifische Workflows.
für Audio, Meetings und Transkription
Schnelle KI-Transkription für Audiodateien und Meetings – ideal zum sofortigen Start oder für regelmäßige Nutzung.

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die Landschaft der Künstlichen Intelligenz (KI) wird zunehmend von großen Sprachmodellen (LLMs) dominiert, die in der Regel als monolithische Systeme konzipiert und eingesetzt werden. Diese Modelle werden als eine einzige, unteilbare Einheit vorab trainiert, feinabgestimmt und bereitgestellt. Obwohl dieser Ansatz effektiv ist, stößt er an seine Grenzen, wenn Modelle in ihrer Größe exponentiell wachsen und Anwendungen nur spezifische Fähigkeiten erfordern. Die Notwendigkeit, das gesamte Modell für jede Aufgabe zu laden, führt zu unnötigem Rechenaufwand und Speicherverbrauch, selbst wenn nur ein kleiner Teil der Funktionalitäten benötigt wird.
Die traditionelle Architektur großer Sprachmodelle als monolithische Systeme birgt inhärente Ineffizienzen. Wenn beispielsweise eine Anwendung lediglich Code-Generierung, mathematische Berechnungen oder domänenspezifisches Wissen benötigt, muss dennoch das gesamte Modell geladen werden. Dies bedeutet, dass riesige Mengen an Parametern, die für die aktuelle Aufgabe irrelevant sind, im Speicher vorgehalten und verarbeitet werden, was zu erheblichen Kosten und einem hohen Ressourcenverbrauch führt. Darüber hinaus erschwert das monolithische Design die Isolierung, Aktualisierung oder Verbesserung spezifischer Fähigkeiten, ohne das gesamte System neu zu trainieren und bereitzustellen.
Mixture-of-Experts (MoE)-Modelle bieten hier einen vielversprechenden Lösungsansatz. Anstelle eines einzigen großen Feedforward-Netzwerks pro Schicht bestehen MoEs aus vielen kleineren Netzwerken, den sogenannten "Experten". Für jedes Eingabe-Token wird nur eine kleine Teilmenge dieser Experten aktiviert. Theoretisch könnte ein MoE für eine Aufgabe, die nur eine bestimmte Fähigkeit erfordert, auch nur die relevanten Experten laden.
In der Praxis zeigen bestehende MoE-Modelle jedoch oft, dass das volle Modell für eine optimale Leistung erforderlich bleibt. Selbst innerhalb einer einzigen Eingabe aktivieren unterschiedliche Token häufig verschiedene Experten, was dazu führt, dass im Verlauf einer Aufgabe letztlich doch alle oder die meisten Experten zum Einsatz kommen. Dies liegt teilweise daran, dass Experten in Standard-MoEs dazu neigen, sich auf lexikalische Muster auf niedriger Ebene zu spezialisieren, wie Präpositionen oder Satzzeichen, anstatt auf höherwertige Domänen oder Fähigkeiten. Infolgedessen sind kleine Expertenteilmengen in Isolation oft nicht zuverlässig nutzbar und führen zu erheblichen Leistungseinbußen, wenn sie selektiv eingesetzt werden.
Das EMO-Modell (EMO: Pretraining Mixture of Experts for Emergent Modularity) stellt einen innovativen Ansatz dar, um die Modularität in MoE-Modellen zu fördern. EMO zielt darauf ab, dass sich modulare Strukturen direkt aus den Trainingsdaten entwickeln, ohne auf vordefinierte menschliche Vorgaben angewiesen zu sein. Dies ermöglicht es, für eine gegebene Aufgabe oder Domäne nur eine kleine Untergruppe von Experten zu nutzen, während die Leistung des Gesamtmodells nahezu erhalten bleibt. Gleichzeitig bleibt EMO ein leistungsfähiges Allzweckmodell, wenn alle Experten zusammen verwendet werden.
Die Kernidee hinter EMO ist die Nutzung von Dokumentgrenzen als schwaches Überwachungssignal während des Vortrainings. Da Token innerhalb desselben Dokuments in der Regel derselben Domäne angehören, werden in EMO alle Token eines Dokuments darauf beschränkt, ihre aktiven Experten aus einem gemeinsamen Expertenpool auszuwählen. Dieser Pool wird vom Router selbst bestimmt, indem die Präferenzen des Routers über alle Token im Dokument gemittelt und die am häufigsten genutzten Experten als gemeinsamer Pool des Dokuments ausgewählt werden. Verschiedene Dokumente können unterschiedliche Pools verwenden, wodurch sich wiederkehrende Expertengruppen direkt aus den Trainingsdaten herausbilden können.
Diese Vorgehensweise führt dazu, dass sich Experten in kohärente Gruppen organisieren, die selektiv genutzt und kombiniert werden können. Im Gegensatz zu früheren Ansätzen, die Token basierend auf vordefinierten semantischen Domänen (z.B. Mathematik, Biologie, Code) an Experten weiterleiteten – was Einschränkungen wie die Notwendigkeit von Domänenetiketten und die Einführung menschlicher Voreingenommenheit mit sich brachte – ermöglicht EMO eine selbstüberwachte Entstehung der modularen Struktur.
Bei der Implementierung von EMO wurden spezifische technische Herausforderungen adressiert:
Die Evaluierung von EMO auf verschiedenen Benchmarks zeigt, dass das Modell eine beeindruckende Leistung erzielt, die der eines Standard-MoE-Modells entspricht, ohne dass die Modularitätsziele zu Lasten der Gesamtleistung gehen. Der entscheidende Vorteil von EMO liegt jedoch in seiner Fähigkeit, auch bei der Nutzung kleiner Expertenteilmengen robust zu bleiben.
Bei der selektiven Nutzung von Experten, d.h. wenn nur eine Teilmenge der Experten für eine spezifische Aufgabe verwendet wird, zeigt EMO eine minimale Leistungsdegradation. Wenn beispielsweise nur 25 % der Experten (32 Expertensubset) beibehalten werden, verliert EMO über alle Benchmarks hinweg nur etwa 1 % an absoluter Leistung. Selbst bei nur 12,5 % der Experten (16 Expertensubset) beträgt der Rückgang lediglich etwa 3 %. Dies gilt sowohl vor als auch nach dem Fine-Tuning. Im Gegensatz dazu zeigen Standard-MoE-Modelle unter denselben Bedingungen einen drastischen Leistungsabfall, der oft nahe an oder unter die Zufallsleistung fällt.
Ein weiterer bemerkenswerter Aspekt ist die Effizienz bei der Auswahl der richtigen Experten für eine Aufgabe. Bereits ein einziges Beispiel mit wenigen Demonstrationen (few-shot demonstrations) reicht aus, um ein Modul zu identifizieren, das eine vergleichbare Leistung wie ein mittels eines vollständigen Validierungsdatensatzes ausgewähltes Modul erbringt. EMO ist nicht an eine bestimmte Auswahlmethode gebunden und funktioniert gut mit bestehenden Expert-Pruning-Ansätzen.
Eine tiefergehende Analyse der von EMO gelernten Expertenspezialisierungen offenbart einen qualitativen Unterschied zu Standard-MoEs. Während die Token-Cluster von Standard-MoEs oft lexikalischen Kategorien wie "Präpositionen", "Eigennamen" oder "bestimmten Artikeln" entsprechen, bildet EMO Cluster, die semantisch bedeutungsvollen Domänen zugeordnet sind, wie "Gesundheit, Medizin & Wellness", "Nachrichtenberichterstattung" oder "US-Politik & Wahlen". Dies bedeutet, dass Token aus einem gegebenen Dokument in EMO größtenteils im selben Cluster landen, was eine konsistente Expertennutzung anzeigt. Im Gegensatz dazu sind sie in Standard-MoEs oft über viele Cluster verstreut.
Diese domänenbasierte Spezialisierung ermöglicht es, eine kleine Expertenteilmenge auszuwählen und dennoch ein funktionierendes Modell zu erhalten, da die Gruppe einer realen Fähigkeit entspricht. EMOs Expertengruppen spiegeln somit menschlich interpretierbare Domänenähnlichkeiten wider, indem sie konzeptionell verwandte Domänen zusammenfassen und nicht verwandte trennen. Dieses Verhalten ist in Standard-MoEs deutlich weniger ausgeprägt.
EMO repräsentiert einen frühen, aber bedeutenden Schritt in Richtung modularerer und flexiblerer großer, spärlicher Modelle. Die emergent modulare Struktur, die EMO während des Vortrainings entwickelt, eröffnet eine Reihe von vielversprechenden Möglichkeiten und adressiert zentrale Herausforderungen im Bereich großer Sprachmodelle.
Mit der zunehmenden Größe von MoE-Modellen, die Parameter im Billionenbereich erreichen können, wird deren Bereitstellung und Anpassung immer ressourcenintensiver. EMOs Modularität bietet hier einen entscheidenden Vorteil: Indem nur kleine, auf eine spezifische Domäne zugeschnittene Expertenteilmengen geladen werden müssen, können Speicherengpässe effektiv umgangen werden. Dies macht den Einsatz großer, spärlicher Modelle in speicherbeschränkten Umgebungen oder auf Edge-Geräten deutlich praktikabler und zugänglicher.
Die Organisation von Experten entlang semantischer Domänen ermöglicht eine feingranulare Kontrolle während der Inferenz. Anwendungsfälle wie das gezielte Deaktivieren von Expertenclustern für unerwünschte Inhalte (z.B. Spam, Glücksspiel, Erwachseneninhalte in kinderfreundlichen Anwendungen) oder das bedingte Freischalten von Spezialwissen (z.B. biomedizinische Kenntnisse) werden denkbar. Dies bietet eine Alternative zur datensatzbasierten Filterung und ermöglicht eine präzisere Verwaltung und Isolierung von Fähigkeiten.
Das modulare Design von EMO könnte ein neues Paradigma für die Entwicklung und Wartung von Modellen etablieren. Anstatt das gesamte Modell bei jeder Aktualisierung neu trainieren und bereitstellen zu müssen, könnten in einem modularen System aufgaben- oder domänenspezifische Expertenteilmengen unabhängig voneinander trainiert und später wieder in das Gesamtmodell integriert werden. Erste Tests deuten darauf hin, dass eine solche modulare Weiterentwicklung möglich ist, auch wenn weitere Forschung zur Optimierung der Integration erforderlich ist.
Die Modularität von EMO trägt auch zu einer besseren Überwachbarkeit und Auditierbarkeit von Modellen bei. Expertenaktivierungen liefern ein strukturiertes Signal darüber, welche Teile des Modells für eine gegebene Eingabe verwendet werden. Wenn beispielsweise ein Modell eine mathematische Frage beantwortet, während gleichzeitig ein Experten-Subset für kreatives Schreiben oder minderwertige Webinhalte stark aktiviert wird, könnte dies auf eine Diskrepanz hinweisen, die eine genauere Untersuchung rechtfertigt. Dies bietet Entwicklern eine strukturiertere Schnittstelle zum Verständnis und zur Fehlerbehebung im Modellverhalten.
EMO demonstriert, dass die Modularität in großen Sprachmodellen nicht nur als nachträgliche Optimierung, sondern als grundlegendes architektonisches Prinzip bereits im Vortraining verankert werden kann. Durch die Beschränkung von Token innerhalb desselben Dokuments auf einen gemeinsamen Expertenpool entwickelt EMO Expertenteilmengen, die sich auf Aufgaben und Fähigkeiten auf hoher Ebene spezialisieren, ohne auf menschlich definierte Domänen oder Aufgabenetiketten angewiesen zu sein. Die erzielten Ergebnisse zeigen, dass diese Struktur nicht zu Lasten der allgemeinen Leistung geht. Im Gegenteil, EMO übertrifft in der selektiven Expertennutzung Standard-MoEs und fest budgetierte Modelle, die von Grund auf trainiert wurden.
Die Verlagerung von einer lexikalischen zu einer semantischen Spezialisierung der Experten deutet auf eine qualitativ andere Form der Wissensorganisation im Modell hin. Dies ist ein wichtiger Schritt weg von monolithischen Systemen hin zu modularen, anpassbaren und leichter zu inspizierenden Sprachmodellen. Die Veröffentlichung des EMO-Modells, des zugehörigen Codes und der Baseline-Modelle durch die Forschergemeinschaft wird weitere Studien und Fortschritte in diesem vielversprechenden Bereich ermöglichen.
Die zukünftige Entwicklung von KI-Systemen könnte durch EMOs Ansatz maßgeblich beeinflusst werden. Die Möglichkeit, Modelle mit emergent modularen Architekturen zu erstellen, verspricht nicht nur effizientere und ressourcenschonendere KI-Anwendungen, sondern auch Systeme, die transparenter, kontrollierbarer und robuster gegenüber neuen Anforderungen sind. Für Unternehmen im B2B-Sektor, die auf leistungsstarke und anpassbare KI-Lösungen angewiesen sind, stellt EMO eine wegweisende Entwicklung dar, die neue Möglichkeiten für maßgeschneiderte und effiziente KI-Implementierungen eröffnet.
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen