Für Teams, Einzelnutzer, Kanzleien und Transkription – derselbe Mindverse Look, klar aufgeteilt nach Anwendungsfall.
für Teams und Unternehmen
Die Plattform für Unternehmen, die eigene KI-Workflows, Wissensdatenbanken und Assistenten produktiv einsetzen möchten.
für Einzelnutzer und Creator
Der einfachste Einstieg in das Mindverse-Ökosystem für Content, Recherche, Bilder, Audio und produktives Arbeiten.
für Juristen und Kanzleien
Die spezialisierte KI-Lösung für juristische Recherche, Vertragsarbeit und kanzleispezifische Workflows.
für Audio, Meetings und Transkription
Schnelle KI-Transkription für Audiodateien und Meetings – ideal zum sofortigen Start oder für regelmäßige Nutzung.

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die Landschaft der Künstlichen Intelligenz wird kontinuierlich durch neue Entwicklungen geprägt. Eine aktuelle Veröffentlichung, die in der Fachwelt Beachtung findet, ist StepAudio 2.5 Realtime des chinesischen KI-Labors StepFun. Dieses neue Echtzeit-Sprachmodell verspricht signifikante Fortschritte in der Sprach-KI und positioniert sich als leistungsstarke Lösung für diverse Anwendungen im B2B-Bereich.
StepAudio 2.5 Realtime wird als End-to-End-Sprachmodell präsentiert. Dies bedeutet, dass Audio direkt als Eingabe verarbeitet und als Ausgabe generiert wird, ohne den traditionellen Pipeline-Ansatz, der Spracherkennung, -verarbeitung und -synthese in separate Schritte unterteilt. Diese integrierte Architektur soll zu einer effizienteren und flüssigeren Kommunikation führen. Das Modell unterstützt sowohl die englische als auch die chinesische Sprache.
Ein wesentlicher Fokus von StepFun bei der Entwicklung von StepAudio 2.5 Realtime lag auf der Verbesserung der Persona-Konsistenz. Ein bekanntes Problem bei konversationellen KI-Systemen ist das sogenannte "Out-of-Character"-Verhalten (OOC), bei dem Modelle von ihrer zugewiesenen Persönlichkeit abweichen können, insbesondere unter Druck oder bei längeren Interaktionen. StepFun begegnet diesem Problem mit einer speziellen "Roleplay-Specific RLHF" (Reinforcement Learning from Human Feedback) Optimierung. Diese Methode nutzt menschliches Feedback, um die Stabilität der Persona gezielt zu trainieren, anstatt sich nur auf die allgemeine Qualität zu konzentrieren. Die Trainingsdatenbasis umfasst über 10.000 von Menschen erstellte Persona-Seeds, die algorithmisch zu einer millionenfach erweiterten Feature-Matrix ausgebaut wurden. Ziel ist es, eine so große Vielfalt an Trainingsdaten zu bieten, dass das Modell auch bei komplexen und ungewöhnlichen Gesprächssituationen seine Rolle beibehält.
Eine weitere herausragende Fähigkeit von StepAudio 2.5 Realtime ist das paralinguistische Verständnis. Das Modell ist in der Lage, nonverbale akustische Hinweise wie Stimmgeschwindigkeit, emotionalen Tonfall und Alter direkt aus dem Audio zu interpretieren, bevor es eine Antwort formuliert. Dies ermöglicht eine nuanciertere Wahrnehmung und Reaktion auf die menschliche Kommunikation. In einem objektiven Benchmark, der die akustische Merkmalswahrnehmung (z.B. Emotion und Sprechgeschwindigkeit) misst, erreichte StepAudio 2.5 Realtime einen Wert von 82,18, während GPT Realtime 1.5 bei 80,46 und Gemini Live bei 58,05 lagen. Diese Fähigkeit zur Interpretation von Seufzern, Zögern oder Lachen kann die Interaktion mit KI-Systemen erheblich natürlicher gestalten.
StepFun hat StepAudio 2.5 Realtime in einer Reihe von Benchmarks gegen führende Echtzeit-Sprachmodelle getestet und dabei nach eigenen Angaben in allen fünf Bewertungsdimensionen den ersten Platz belegt. Die Tests umfassten:
Diese Ergebnisse deuten auf eine starke Leistung des Modells hin, insbesondere im Vergleich zu Wettbewerbern wie GPT Realtime 1.5 und Gemini Live. Es ist jedoch zu beachten, dass es sich hierbei um unternehmenseigene Benchmarks handelt.
Die Technologie hinter StepAudio 2.5 Realtime ist darauf ausgelegt, Entwicklern die Erstellung und Anpassung von KI-Personas zu ermöglichen. Über eine API können eigene Charaktere mit konfigurierbaren Meinungen, Schlagworten und emotionalen Grenzen entwickelt werden. Dies eröffnet vielfältige Anwendungsmöglichkeiten in Bereichen wie:
Die Integration erfolgt über eine WebSocket-API, die eine persistente Verbindung für bidirektionales Audio-Streaming bietet. Die Latenzzeit soll unter 300 ms liegen, was für Echtzeit-Sprachanwendungen entscheidend ist.
StepFun wurde im April 2023 von Jiang Daxin gegründet, der zuvor 16 Jahre bei Microsoft an Projekten wie Bing, Cortana und Azure Cognitive Services gearbeitet hat. Das Unternehmen wird als eines der "AI Tiger Startups" Chinas bezeichnet und hat bisher rund 1,7 Milliarden US-Dollar an Finanzmitteln erhalten. StepFun ist auch für seine Text-LLMs bekannt, die in der Vergangenheit größere Systeme übertroffen haben, wie das 196-Milliarden-Parameter-Modell Step 3.5 Flash, das in Reasoning-Benchmarks gegen Billionen-Parameter-Konkurrenten erfolgreich war.
Trotz der beeindruckenden technischen Fortschritte bleiben bestimmte Fragen offen, insbesondere im Hinblick auf die Trainingsdaten. Die öffentlichen Beschreibungen von StepFun geben derzeit keine detaillierten Informationen über die Herkunft der verwendeten Sprachdaten, die Einwilligung der Sprecher oder die Copyright-Grenzen an. Für B2B-Kunden, die KI-Lösungen in regulierten Umfeldern einsetzen möchten, sind diese Aspekte von Bedeutung, um rechtliche Risiken und ethische Bedenken abzuklären.
StepFun wird in Zukunft zeigen müssen, wie sich StepAudio 2.5 Realtime in der Praxis bewährt und wie das Unternehmen mit den Fragen rund um die Transparenz und Lizenzierung der Trainingsdaten umgeht. Die Fähigkeit, performante und gleichzeitig verantwortungsvolle KI-Lösungen anzubieten, wird entscheidend für den langfristigen Erfolg in einem wettbewerbsintensiven Markt sein.
Bibliography: - Decrypt. (2026, May 26). *StepFun's Voice AI Topped Every Benchmark. It Also Hears Your Sighs*. Retrieved from https://decrypt.co/369013/stepfun-stepaudio-voice-ai-tops-benchmarks - MarkTechPost. (2026, May 24). *StepFun Releases StepAudio 2.5 Realtime: An End-to-End Voice Model with Roleplay-Specific RLHF and Paralinguistic Comprehension*. Retrieved from https://www.marktechpost.com/2026/05/24/stepfun-releases-stepaudio-2-5-realtime-an-end-to-end-voice-model-with-roleplay-specific-rlhf-and-paralinguistic-comprehension/ - WinBuzzer. (2026, May 25). *StepFun Launches StepAudio 2.5 Realtime Live Voice AI Model*. Retrieved from https://winbuzzer.com/2026/05/25/stepfun-launches-stepaudio-25-for-live-voice-ai-xcxwbn/ - AI-trends.today. (2026, May 25). *StepFun releases StepAudio 2.5 realtime, an end-to-end voice model with roleplay-specific RLHF (Roleplay Language Handling Functions) and paralinguistic comprehension*. Retrieved from https://ai-trends.today/stepfun-releases-stepaudio-2-5-realtime-an-end-to-end-voice-model-with-roleplay-specific-rlhf-and-paralinguistic-comprehension/ - TECH SPARKING. (2026, May 24). *StepFun Releases StepAudio 2.5 Real-Time: End-to-End Voice Modeling with Roleplay-Specific RLHF and Linguistic Understanding*. Retrieved from https://techsparking.com/stepfun-releases-stepaudio-2-5-real-time-end-to-end-voice-modeling-with-roleplay-specific-rlhf-and-linguistic-understanding/ - StepFun Documentation. *All Audio Models*. Retrieved from https://platform.stepfun.ai/docs/en/guides/models/audio - Yahoo Tech. (2026, May 26). *StepFun's Voice AI Topped Every Benchmark. It Also Hears Your Sighs*. Retrieved from https://tech.yahoo.com/ai/meta-ai/articles/stepfuns-voice-ai-topped-every-152944264.html - GitHub. *stepfun-ai/Step3*. Retrieved from https://github.com/stepfun-ai/Step3 - StepFun Documentation. *Voice interaction developer guide*. Retrieved from https://platform.stepfun.ai/docs/en/guides/developer/tts - GitHub. *stepfun-ai/Step3-VL-10B*. Retrieved from https://github.com/stepfun-ai/Step3-VL-10BLernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen