Neues Open-Source-Modell revolutioniert sprachbasierte KI-Interaktionen

Kategorien:

No items found.

Freigegeben:

June 7, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

Ein neues Open-Source-Sprachmodell, genannt "Audio Interaction", verarbeitet kontinuierliche Audiostreams und integriert Dialog-, Übersetzungs-, Transkriptions- und Geräuscherkennungsaufgaben in einem einzigen System.
Das Modell segmentiert Audiostreams in 0,4-Sekunden-Abschnitte und entscheidet nach jedem Segment, ob es schweigen oder eine Antwort generieren soll.
Trainiert mit einem künstlich generierten Datensatz von 302.000 Stunden Audio, verarbeitet das System Hören und Sprechen parallel, was die Wartezeit auf Antworten minimiert.
Das Modell übertrifft in proaktiven Geräuscherkennungstests andere Modelle wie Gemini 3 Flash.
Die Architektur des Modells zielt darauf ab, die Lücke zwischen aktuellen Audiosprachmodellen und menschlicher Interaktion zu schließen.

Revolution in der Sprachinteraktion: Ein neues Modell entscheidet dynamisch über Hören und Sprechen

Die Interaktion mit künstlicher Intelligenz über Sprache hat in den letzten Jahren erhebliche Fortschritte gemacht. Doch trotz beeindruckender Fähigkeiten aktueller Sprachmodelle, wie GPT-4o oder Qwen 3.5-Omni, bestehen weiterhin Herausforderungen, insbesondere in Bezug auf die Natürlichkeit und Effizienz der Konversation. Traditionelle Modelle arbeiten oft nach einem "Push-to-Talk"-Prinzip, bei dem eine Antwort erst nach Abschluss der Audioeingabe erfolgt. Streamende Systeme, wie Moshi für Dialoge oder Paraformer für Live-Untertitel, lauschen zwar kontinuierlich, sind aber in der Regel auf eine einzelne Aufgabe spezialisiert und ignorieren oft nicht-sprachliche Geräusche.

Forschende aus China, Hongkong und Singapur haben nun ein innovatives Modell vorgestellt, das diese Lücke schließen soll: das "Audio Interaction Model". Dieses System vereint die Vorteile beider Ansätze und ermöglicht eine dynamischere, menschenähnlichere Sprachinteraktion. Es hört einem Audiostream kontinuierlich zu, zerlegt diesen in kurze 0,4-Sekunden-Abschnitte und entscheidet nach jedem Abschnitt, ob es schweigen oder eine Reaktion generieren soll. Dies alles geschieht innerhalb eines einzigen Modells mit drei Milliarden Parametern, das Dialog, Übersetzung, Transkription und die Reaktion auf alltägliche Geräusche simultan verarbeitet.

Die Mechanik hinter der dynamischen Entscheidung

Das Herzstück des "Audio Interaction Model" ist seine Fähigkeit, nach jedem Audio-Snippet zwischen einem -Token und einem -Token zu wählen. Wählt es , fährt es fort zu lauschen. Erst bei der Wahl von beginnt es zu sprechen. Dies ermöglicht eine flüssigere Konversation und die Integration klassischer Aufgaben, wie die Übersetzung in eine andere Sprache, als direkte Anweisung innerhalb des kontinuierlichen Audiostroms.

Laut den Verfassern der veröffentlichten Arbeit erreichte Audio-Interaction auf dem Audio-Benchmark MMAU einen Wert von 58,15 Punkten und übertraf damit knapp sein Basismodell Qwen2.5-Omni-3B. Es nähert sich auch der Leistung deutlich größerer 7B-Modelle an. Insbesondere bei der Englisch-Chinesisch-Übersetzung zeigte das Modell signifikante Verbesserungen gegenüber der Basisversion.

Bisherige Systeme lösten Aufgaben wie Spracherkennung (ASR), Übersetzung und Sprachdialog in getrennten Modellen. Audio-Interaction hingegen kombiniert Erkennung, Übersetzung, Dialog und proaktive Reaktion in einem einzigen Streaming-Setup. Diese Vereinheitlichung stellt einen fundamentalen Paradigmenwechsel dar.

Datensatz und Herausforderungen im Training

Um dem Modell beizubringen, wann es eingreifen soll, war ein spezieller Trainingsdatensatz erforderlich. Bestehende Audiodatensätze bestehen oft aus kurzen, isolierten Clips und verfügen nicht über lange Sequenzen mit spärlichen Antwortsignalen, wie die Forschenden betonen. Daher wurde ein eigener Datensatz namens StreamAudio-2M entwickelt. Dieser Datensatz umfasst 2,6 Millionen Einheiten und etwa 302.000 Stunden Audio, aufgeteilt in sieben Kompetenzbereiche und 28 Unteraufgaben. Die Erstellung erfolgte in drei Stufen:

Ein Sprachmodell entwarf ein plausibles Szenario (z.B. eine Küche am Morgen) mit drei bis fünfzehn Unterereignissen.
Das System suchte in einer Datenbank nach passenden Clips oder erzeugte fehlende Geräusche, wie zerbrechendes Glas, mithilfe von Audio-Modellen wie AudioX oder ElevenLabs.
Ein Vorverarbeitungsschritt glättete die Schnittkanten, um eine natürliche Klangqualität der Aufnahmen zu gewährleisten.

Während des Trainings traten zwei Hauptprobleme auf:

Vergesslichkeit bei langen Sequenzen: Das Modell vergaß in langen, geräuschvollen Sequenzen frühere Inhalte. Dies wurde durch Fragen behoben, die sich auf Passagen aus viel früheren Audioabschnitten bezogen, um das Modell zum Aufbau eines Langzeitgedächtnisses zu zwingen.
Überreaktion auf irrelevante Geräusche: Das Modell reagierte zu oft auf Geräusche, die keine Bedeutung hatten. Dem wurde mit großen Mengen verifizierter Stille und Hintergrundgeräuschen entgegengewirkt, die explizit keine Reaktion auslösen sollten. Auf dem neu eingeführten ProactiveSound Bench, der 644 von Menschen kuratierte Ereignisse enthält, übertrifft das Modell unter anderem Gemini 3 Flash, Kimi-Audio-Instruct und Step-Audio 2.

Architektur für Echtzeit-Interaktion

Für den Echtzeitbetrieb wurde die Verarbeitung eingehender Audiodaten von der Generierung der Antwort getrennt. Beide Prozesse laufen parallel und tauschen Daten über eine Warteschlange aus: Die Audioseite schreibt kontinuierlich neue Blöcke, während die Antwortseite diese nur liest, wenn sie nichts zu sagen hat. Ohne diese Trennung stieg die Zeit bis zur ersten Antwort von 392 auf 831 Millisekunden, und das System blieb in 5,2 Prozent der Fälle hängen.

Die Wahl der 0,4-Sekunden-Blockgröße stellt einen Kompromiss dar. Bei 0,2 Sekunden wäre nicht genügend Kontext vorhanden, und das Modell würde im Dialog auseinanderfallen. Bei 0,8 Sekunden würde die Latenz auf 786 Millisekunden ansteigen. Die Architektur, genannt SoundFlow, richtet das Audiosignal, Zwischenrepräsentationen und Kontroll-Tokens in einer Zeitsequenz aus und trainiert gemeinsam, wann das Modell spricht und wann es still bleibt.

Der Code und Anweisungen zum Herunterladen der Gewichte sind unter der Apache 2.0 Lizenz auf GitHub verfügbar, ohne Einschränkungen für die kommerzielle Nutzung. Der vollständige Trainingsdatensatz soll zu einem späteren Zeitpunkt folgen.

Implikationen für B2B-Anwendungen

Dieses neue Open-Source-Modell bietet erhebliche Potenziale für Unternehmen, die in den Bereichen Sprachassistenz, Kundenservice, Echtzeit-Übersetzung oder interaktive Schulungssysteme tätig sind. Die Fähigkeit des Modells, kontinuierlich zuzuhören und dynamisch zu reagieren, kann die Benutzererfahrung in sprachgesteuerten Anwendungen maßgeblich verbessern. Die Reduzierung von Wartezeiten und die natürliche Gesprächsführung, die durch die parallelisierte Verarbeitung ermöglicht wird, könnten die Akzeptanz von KI-Lösungen in geschäftlichen Kontexten steigern. Die proaktive Geräuscherkennung eröffnet zudem neue Möglichkeiten für intelligente Umgebungen und Sicherheitssysteme, die auf akustische Ereignisse reagieren müssen.

Für Mindverse, als deutsches KI-Unternehmen und Partner für KI-Lösungen, ist die Entwicklung solcher Modelle von großem Interesse. Die Integration von Fähigkeiten wie Dialog, Übersetzung und Transkription in ein einziges System könnte die Effizienz und Vielseitigkeit von KI-Tools erheblich steigern und neue Anwendungsfelder für unsere B2B-Kunden erschließen. Die Open-Source-Verfügbarkeit fördert zudem die Weiterentwicklung und Anpassung an spezifische Kundenbedürfnisse, was die Innovationszyklen beschleunigen kann.

Bibliography

- "New open-source voice model listens nonstop and decides every 0.4 seconds whether to speak or stay silent". The Decoder. - xzf-thu/Audio-Interaction. GitHub. - GPT Realtime 2 Can Stay Silent on Command and Keep Listening — Here's Why That Changes Voice Agents | MindStudio. MindStudio. - NVIDIA PersonaPlex: Natural Conversational AI With Any Role and Voice - NVIDIA ADLR. NVIDIA. - anyreachai/dualturn. GitHub. - ConvoCortex/convocortex-stt. GitHub. - amznsri/openvox. GitHub. - "Why Your Voice Agent Won't Stop Talking: Building the Zero-Latency Interruption Layer with Gemma 4 E2B". DEV Community. - fern/customization/speech-configuration.mdx at main · VapiAI/docs. GitHub. - "A solution to Turn-Taking and Interruption Prediction in Voice AI". Krisp Engineering.