Für Teams, Einzelnutzer, Kanzleien und Transkription – derselbe Mindverse Look, klar aufgeteilt nach Anwendungsfall.
für Teams und Unternehmen
Die Plattform für Unternehmen, die eigene KI-Workflows, Wissensdatenbanken und Assistenten produktiv einsetzen möchten.
für Einzelnutzer und Creator
Der einfachste Einstieg in das Mindverse-Ökosystem für Content, Recherche, Bilder, Audio und produktives Arbeiten.
für Juristen und Kanzleien
Die spezialisierte KI-Lösung für juristische Recherche, Vertragsarbeit und kanzleispezifische Workflows.
für Audio, Meetings und Transkription
Schnelle KI-Transkription für Audiodateien und Meetings – ideal zum sofortigen Start oder für regelmäßige Nutzung.

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die Entwicklung von Automatic Speech Recognition (ASR)-Modellen hat in den letzten Jahren erhebliche Fortschritte gemacht. Dennoch besteht eine signifikante Diskrepanz zwischen der Leistungsfähigkeit dieser Modelle unter idealen Laborbedingungen und ihrer tatsächlichen Performance in realen Anwendungsszenarien. Um dieser Herausforderung zu begegnen, haben Treble Technologies und Hugging Face das Far-Field ASR (FFASR) Leaderboard ins Leben gerufen. Diese offene, gemeinschaftsgetriebene Benchmark zielt darauf ab, ASR-Modelle unter realistischen akustischen Bedingungen zu bewerten und so eine präzisere Einschätzung ihrer Alltagstauglichkeit zu ermöglichen.
Sprachschnittstellen sind mittlerweile weit über Headsets und Smartphones hinaus verbreitet. Sie finden Anwendung in KI-Sprachassistenten, Konferenzraum-Transkriptionssystemen, In-Car-Assistenten, humanoiden Robotern, Smart Glasses und vielen weiteren freihändigen Werkzeugen. All diese Anwendungen operieren in akustisch komplexen Umgebungen, die von Faktoren wie Nachhall, Hintergrundgeräuschen, überlappenden Stimmen und variierenden Mikrofonabständen geprägt sind. Traditionelle ASR-Benchmarks, die oft unter sauberen, nahfeldnahen Bedingungen durchgeführt werden, können diese komplexen Interaktionen jedoch nicht adäquat abbilden.
Ein Modell, das in Benchmarks wie LibriSpeech hervorragende Ergebnisse erzielt, kann in realen Umgebungen, in denen Raumakustik eine Rolle spielt, drastisch an Leistung verlieren. Das FFASR Leaderboard wurde entwickelt, um diese Leistungslücke zu quantifizieren und sichtbar zu machen. Es ergänzt bestehende Forschungsansätze zu Far-Field- und rauschbehafteter Spracherkennung, wie CHiME, URGENT und NOIZEUS, durch eine standardisierte, offene und kontinuierlich aktualisierte Ranking-Plattform.
Die Konstruktion einer umfassenden Far-Field-Evaluierung erfordert eine große Menge an Daten, die eine repräsentative Bandbreite an Raumtypen, Mikrofonabständen und Geräuschbedingungen abdecken. Die physische Sammlung solcher Daten ist jedoch extrem kostspielig und aufwendig. Aus diesem Grund setzt das FFASR Leaderboard auf Simulationstechnologien.
Die akustischen Daten werden mithilfe der hybriden Simulations-Engine von Treble generiert. Diese Engine kombiniert wellenbasierte Solver für tiefe und mittlere Frequenzen mit geometrisch-akustischen Modellen für höhere Frequenzen. Dieser Ansatz ermöglicht die Abbildung komplexer physikalischer Phänomene wie Beugung, Streuung, Interferenz und modales Verhalten, die von einfacheren Simulationsmethoden oft nicht erfasst werden. Das Ergebnis sind simulierte Daten, die den gemessenen akustischen Bedingungen sehr nahekommen, was durch einen "Sim-to-Real"-Validierungstrack zusätzlich bestätigt wird.
Die Benchmark umfasst vierzehn vollständig möblierte Räume mit Volumina zwischen 20 und 470 m³, darunter Badezimmer, Wohnzimmer mit Fluren, Büros, Klassenzimmer und Restaurantbereiche. Jede akustische Szene beinhaltet einen Zielsprecher, dessen Stimme in einer schalltoten Kammer aufgenommen wurde, um Nachhallartefakte zu vermeiden. Hinzu kommen bis zu drei Geräuschquellen pro Szene, einschließlich transienter Geräusche (z.B. Husten) und kontinuierlicher Geräusche (z.B. Lüftungsanlagen), die in drei verschiedenen SNR-Stufen (Signal-Rausch-Verhältnis) hinzugefügt werden. Diese Vielfalt soll die realen Bedingungen widerspiegeln, unter denen Sprachsysteme eingesetzt werden.
Das FFASR Leaderboard bewertet Modelle anhand von neun Bedingungen, wobei die primäre Rangliste auf vier Hauptkategorien basiert:
Zusätzlich zur Wortfehlerrate (Word Error Rate, WER) wird für jede Einreichung auch die RTFx (Audio-Sekunden pro Inferenz-Sekunde) angegeben, bewertet auf einer NVIDIA L4 GPU unter identischen Bedingungen. Dies ermöglicht eine ganzheitliche Betrachtung von Genauigkeit und Latenz, die für reale Anwendungen entscheidend sind.
Erste Ergebnisse des Leaderboards zeigen ein konsistentes Muster: Die Lücke zwischen Nahfeld- und Far-Field-Leistung ist erheblich und vergrößert sich signifikant mit sinkendem SNR. Während die Nahfeld-WER-Werte auf sauberer, trockener Sprache vergleichbar mit etablierten Benchmarks sind, ist die Far-Field-WER bei niedrigem SNR oft um ein Vielfaches höher. Diese Degradation wird durch die Benchmark sichtbar und vergleichbar gemacht, was zuvor außerhalb proprietärer Evaluierungspipelines schwierig war.
Die Pareto-Front, welche die durchschnittliche WER gegen RTFx darstellt, offenbart zudem die unterschiedlichen Prioritäten der eingereichten Modelle. Es gibt Modelle, die Geschwindigkeit auf Kosten der Genauigkeit priorisieren, andere, die maximale Genauigkeit auf Kosten des Durchsatzes anstreben, und einige wenige, die einen ausgewogenen Kompromiss bieten. Diese Visualisierung der Kompromisse im Kontext der Far-Field-Genauigkeit liefert ein differenziertes Bild der Leistungsunterschiede zwischen den Systemen.
Für Entwickler ist die separate Angabe von Nahfeld- und Far-Field-WER besonders nützlich. Sie ermöglicht es, zwischen einem grundsätzlich genauen Modell und einem Modell zu unterscheiden, das zwar genau ist, aber anfällig für akustische Bedingungen. Diese Unterscheidung ist entscheidend für Entscheidungen über Investitionen in Far-Field-Feinabstimmung, Spracherkennungs-Vorverarbeitung oder alternative Architekturen.
Die Einreichung von Modellen auf dem FFASR Leaderboard erfolgt über die Hugging Face Plattform. Benutzer können eine Hugging Face Modell-ID eingeben, und die Evaluierung wird serverseitig auf einem nicht offengelegten Datensatz durchgeführt. Die Pipeline unterstützt eine Vielzahl von ASR-Architekturen, darunter Whisper-Varianten, IBM Granite Speech, Cohere Transcribe, Wav2Vec2 und HuBERT CTC-Heads sowie SpeechBrain ASR.
Für komplexere Inferenz-Stacks, die beispielsweise Spracherkennung mit Sprachverbesserung kombinieren, besteht die Möglichkeit, eigene `evaluate()`-Funktionen zu definieren. Diese benutzerdefinierten Evaluatoren werden nach einer Moderationsprüfung auf Hub Jobs ausgeführt, wobei die Dokumentation der Vorverarbeitungsschritte in den Einreichungsnotizen für die Interpretierbarkeit der Ergebnisse wichtig ist.
Das Evaluierungsset besteht aus 2.000 schalltoten Sprachsamples, die in 14 Räumen und drei SNR-Stufen simuliert wurden, was etwa 8 Stunden Audio pro Bedingung entspricht. Die Audio-Daten bleiben für die Einreichenden verborgen, um eine Kontamination des Test-Sets zu verhindern.
Die Zukunft des FFASR Leaderboards sieht weitere Erweiterungen vor. Aktuell werden Szenarien für zukünftige Tracks erforscht, darunter Multi-Talker-Szenarien, bei denen mehrere Sprecher gleichzeitig aktiv sind, die Evaluierung von Mikrofon-Arrays, die Beamforming und räumliche Filteransätze abdecken, sowie Echokompensation, die für Geräte relevant ist, die Audio wiedergeben und gleichzeitig auf Sprache hören. Die Weiterentwicklung des Leaderboards wird maßgeblich von den Bedürfnissen der Community und den identifizierten Lücken in der aktuellen Benchmark abhängen.
Das FFASR Leaderboard stellt einen wichtigen Schritt dar, um die Leistungsfähigkeit von ASR-Modellen unter realen Bedingungen transparenter und vergleichbarer zu machen. Es bietet Entwicklern und Forschern eine wertvolle Ressource, um die Robustheit ihrer Modelle zu bewerten und die Entwicklung von Spracherkennungstechnologien voranzutreiben, die den Anforderungen der realen Welt gerecht werden.
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen