Für Teams, Einzelnutzer, Kanzleien und Transkription – derselbe Mindverse Look, klar aufgeteilt nach Anwendungsfall.
für Teams und Unternehmen
Die Plattform für Unternehmen, die eigene KI-Workflows, Wissensdatenbanken und Assistenten produktiv einsetzen möchten.
für Einzelnutzer und Creator
Der einfachste Einstieg in das Mindverse-Ökosystem für Content, Recherche, Bilder, Audio und produktives Arbeiten.
für Juristen und Kanzleien
Die spezialisierte KI-Lösung für juristische Recherche, Vertragsarbeit und kanzleispezifische Workflows.
für Audio, Meetings und Transkription
Schnelle KI-Transkription für Audiodateien und Meetings – ideal zum sofortigen Start oder für regelmäßige Nutzung.

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die Interaktion mit künstlicher Intelligenz über Sprache hat in den letzten Jahren erhebliche Fortschritte gemacht. Doch trotz beeindruckender Fähigkeiten aktueller Sprachmodelle, wie GPT-4o oder Qwen 3.5-Omni, bestehen weiterhin Herausforderungen, insbesondere in Bezug auf die Natürlichkeit und Effizienz der Konversation. Traditionelle Modelle arbeiten oft nach einem "Push-to-Talk"-Prinzip, bei dem eine Antwort erst nach Abschluss der Audioeingabe erfolgt. Streamende Systeme, wie Moshi für Dialoge oder Paraformer für Live-Untertitel, lauschen zwar kontinuierlich, sind aber in der Regel auf eine einzelne Aufgabe spezialisiert und ignorieren oft nicht-sprachliche Geräusche.
Forschende aus China, Hongkong und Singapur haben nun ein innovatives Modell vorgestellt, das diese Lücke schließen soll: das "Audio Interaction Model". Dieses System vereint die Vorteile beider Ansätze und ermöglicht eine dynamischere, menschenähnlichere Sprachinteraktion. Es hört einem Audiostream kontinuierlich zu, zerlegt diesen in kurze 0,4-Sekunden-Abschnitte und entscheidet nach jedem Abschnitt, ob es schweigen oder eine Reaktion generieren soll. Dies alles geschieht innerhalb eines einzigen Modells mit drei Milliarden Parametern, das Dialog, Übersetzung, Transkription und die Reaktion auf alltägliche Geräusche simultan verarbeitet.
Das Herzstück des "Audio Interaction Model" ist seine Fähigkeit, nach jedem Audio-Snippet zwischen einem
Laut den Verfassern der veröffentlichten Arbeit erreichte Audio-Interaction auf dem Audio-Benchmark MMAU einen Wert von 58,15 Punkten und übertraf damit knapp sein Basismodell Qwen2.5-Omni-3B. Es nähert sich auch der Leistung deutlich größerer 7B-Modelle an. Insbesondere bei der Englisch-Chinesisch-Übersetzung zeigte das Modell signifikante Verbesserungen gegenüber der Basisversion.
Bisherige Systeme lösten Aufgaben wie Spracherkennung (ASR), Übersetzung und Sprachdialog in getrennten Modellen. Audio-Interaction hingegen kombiniert Erkennung, Übersetzung, Dialog und proaktive Reaktion in einem einzigen Streaming-Setup. Diese Vereinheitlichung stellt einen fundamentalen Paradigmenwechsel dar.
Um dem Modell beizubringen, wann es eingreifen soll, war ein spezieller Trainingsdatensatz erforderlich. Bestehende Audiodatensätze bestehen oft aus kurzen, isolierten Clips und verfügen nicht über lange Sequenzen mit spärlichen Antwortsignalen, wie die Forschenden betonen. Daher wurde ein eigener Datensatz namens StreamAudio-2M entwickelt. Dieser Datensatz umfasst 2,6 Millionen Einheiten und etwa 302.000 Stunden Audio, aufgeteilt in sieben Kompetenzbereiche und 28 Unteraufgaben. Die Erstellung erfolgte in drei Stufen:
Während des Trainings traten zwei Hauptprobleme auf:
Für den Echtzeitbetrieb wurde die Verarbeitung eingehender Audiodaten von der Generierung der Antwort getrennt. Beide Prozesse laufen parallel und tauschen Daten über eine Warteschlange aus: Die Audioseite schreibt kontinuierlich neue Blöcke, während die Antwortseite diese nur liest, wenn sie nichts zu sagen hat. Ohne diese Trennung stieg die Zeit bis zur ersten Antwort von 392 auf 831 Millisekunden, und das System blieb in 5,2 Prozent der Fälle hängen.
Die Wahl der 0,4-Sekunden-Blockgröße stellt einen Kompromiss dar. Bei 0,2 Sekunden wäre nicht genügend Kontext vorhanden, und das Modell würde im Dialog auseinanderfallen. Bei 0,8 Sekunden würde die Latenz auf 786 Millisekunden ansteigen. Die Architektur, genannt SoundFlow, richtet das Audiosignal, Zwischenrepräsentationen und Kontroll-Tokens in einer Zeitsequenz aus und trainiert gemeinsam, wann das Modell spricht und wann es still bleibt.
Der Code und Anweisungen zum Herunterladen der Gewichte sind unter der Apache 2.0 Lizenz auf GitHub verfügbar, ohne Einschränkungen für die kommerzielle Nutzung. Der vollständige Trainingsdatensatz soll zu einem späteren Zeitpunkt folgen.
Dieses neue Open-Source-Modell bietet erhebliche Potenziale für Unternehmen, die in den Bereichen Sprachassistenz, Kundenservice, Echtzeit-Übersetzung oder interaktive Schulungssysteme tätig sind. Die Fähigkeit des Modells, kontinuierlich zuzuhören und dynamisch zu reagieren, kann die Benutzererfahrung in sprachgesteuerten Anwendungen maßgeblich verbessern. Die Reduzierung von Wartezeiten und die natürliche Gesprächsführung, die durch die parallelisierte Verarbeitung ermöglicht wird, könnten die Akzeptanz von KI-Lösungen in geschäftlichen Kontexten steigern. Die proaktive Geräuscherkennung eröffnet zudem neue Möglichkeiten für intelligente Umgebungen und Sicherheitssysteme, die auf akustische Ereignisse reagieren müssen.
Für Mindverse, als deutsches KI-Unternehmen und Partner für KI-Lösungen, ist die Entwicklung solcher Modelle von großem Interesse. Die Integration von Fähigkeiten wie Dialog, Übersetzung und Transkription in ein einziges System könnte die Effizienz und Vielseitigkeit von KI-Tools erheblich steigern und neue Anwendungsfelder für unsere B2B-Kunden erschließen. Die Open-Source-Verfügbarkeit fördert zudem die Weiterentwicklung und Anpassung an spezifische Kundenbedürfnisse, was die Innovationszyklen beschleunigen kann.
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen