In der Welt der automatisierten Spracherkennung (ASR) ist ein konstanter Wettbewerb um Genauigkeit, Robustheit und Vielseitigkeit im Gange. Unternehmen und Forschungsteams auf der ganzen Welt arbeiten unermüdlich daran, die effektivsten Modelle zu entwickeln und zu verbessern. In diesem hart umkämpften Feld hat ein neuer Spitzenreiter die Bühne betreten: Die Parakeet-Modelle, entwickelt in Zusammenarbeit von NVIDIA NeMo und Suno.ai, haben auf dem Open ASR Leaderboard führende Positionen eingenommen und sich gegen den bisherigen Spitzenreiter Whisper durchgesetzt.
Die Parakeet-Modelle, die sowohl in RNNT- als auch in CTC-Versionen verfügbar sind, zeichnen sich durch ihre leistungsfähige Architektur und ihre Präzision bei der Spracherkennung aus. Dies ist ein bemerkenswerter Erfolg, insbesondere angesichts der Tatsache, dass die Modelle auf einer beachtlichen Menge von 65.000 Stunden englischsprachigen Audiomaterials trainiert wurden. Dieses Korpus umfasst nicht nur 40.000 Stunden proprietäre Daten, die von den Teams von Suno und NeMo bereitgestellt wurden, sondern auch 25.000 Stunden aus öffentlichen Datensätzen.
Die Parakeet-Modelle basieren auf der FastConformer-Architektur und wurden in zwei Ausführungen trainiert: die RNNT-Variante mit 1,1 Milliarden und 0,6 Milliarden Parametern sowie die CTC-Variante mit 1,1 Milliarden und 0,5 Milliarden Parametern. Diese Modelle weisen einige Schlüsselmerkmale auf, die sie besonders wertvoll für den Einsatz in der automatisierten Spracherkennung machen. Zum einen tendieren sie nicht dazu, Halluzinationen zu erzeugen – wenn eine Audioaufnahme Stille enthält, gibt das Modell ebenfalls Stille aus. Zum anderen sind sie recht robust gegenüber verrauschten Audioaufnahmen – bei nicht-vokalen Klängen in der Aufnahme wird ebenfalls Stille erzeugt.
Die Modelle sind unter einer kommerziell permissiven Lizenz veröffentlicht worden, was ihre Verwendung in einer Vielzahl von kommerziellen Anwendungen ermöglicht. Dies erleichtert es Unternehmen und Entwicklern, die Modelle in ihre eigenen Produkte und Dienstleistungen zu integrieren.
Die Benutzerfreundlichkeit der Parakeet-Modelle ist ein weiterer entscheidender Faktor für ihren Erfolg. Durch die Verfügbarkeit im NeMo-Toolkit können Entwickler mit nur wenigen Befehlen in Python ein leistungsfähiges Spracherkennungsmodell in ihre Anwendungen einbetten. Darüber hinaus ermöglicht die Integration mit Hugging Face eine einfache und direkte Anwendung der Modelle zur Transkription von Audiodateien.
Die Trainingsdaten der Modelle setzen sich aus einer Kombination von proprietären und öffentlichen Datensätzen zusammen, darunter bekannte Ressourcen wie LibriSpeech, Fisher Corpus, Switchboard-1, WSJ-0 und WSJ-1, National Speech Corpus, VCTK, VoxPopuli, Europarl-ASR, Multilingual LibriSpeech und Mozilla Common Voice. Diese Vielfalt an Trainingsmaterial gewährleistet eine breite Abdeckung verschiedener Sprechstile, Akzente und Hintergrundgeräusche, was zu einer verbesserten Leistung bei der allgemeinen Sprachtranskription führt.
Die Leistung der ASR-Modelle wird anhand der Word Error Rate (WER) gemessen. Dank des umfangreichen und vielfältigen Trainingsmaterials weisen die Parakeet-Modelle eine im Allgemeinen bessere Transkriptionsleistung auf. Zum Beispiel zeigt das Parakeet-CTC-1.1B-Modell auf dem AMI-Datensatz eine WER von 15,62 % und auf dem LibriSpeech-Testset (clean) eine beeindruckende WER von 1,83 %.
NVIDIA Riva, eine beschleunigte Speech AI SDK von NVIDIA, unterstützt zwar derzeit noch nicht die Parakeet-Modelle, bietet aber eine Plattform für die Bereitstellung von Sprachdiensten auf Unternehmensniveau, die möglicherweise zukünftig die Integration von Parakeet-Modellen erleichtern könnte.
Die Entwicklungen im Bereich ASR sind für eine breite Palette von Anwendungen relevant, von der Verbesserung der Zugänglichkeit durch Sprach-zu-Text-Dienste über die Entwicklung von Voicebots und Sprachsuchmaschinen bis hin zur Verstärkung von Kundenservice-Tools. Mit der Freigabe der Parakeet-Modelle unter einer kommerziell permissiven Lizenz öffnet sich ein neues Kapitel in der automatisierten Spracherkennung – eines, das den Zugang zu hochpräzisen und robusten Spracherkennungswerkzeugen erweitert und die Entwicklung benutzerfreundlicher Sprachanwendungen vorantreibt.