NeMo Parakeet setzt neue Maßstäbe in der Spracherkennungstechnologie

Kategorien:

No items found.

Freigegeben:

June 14, 2024

Artikel jetzt als Podcast anhören

In der Welt der künstlichen Intelligenz (KI) und der automatisierten Spracherkennung (ASR) hat die Entwicklung von fortschrittlichen Modellen einen neuen Meilenstein erreicht. Ein neues Modell namens NeMo Parakeet, das von den Teams von NVIDIA NeMo und Suno.ai gemeinsam entwickelt wurde, stellt einen signifikanten Fortschritt in der Präzision und Effizienz der Spracherkennung dar. Dieses Modell wurde auf einer beeindruckenden Datenmenge von 65.000 Stunden Sprachmaterial trainiert und hat sich in aktuellen Benchmark-Tests hervorgetan, indem es Konkurrenzmodelle wie Open AI Whisper übertraf und an der Spitze der Open ASR-Rangliste steht.

Die automatisierte Spracherkennung ist eine Schlüsseltechnologie für zahlreiche Anwendungen, von der Transkription von Meetings und Vorlesungen bis hin zu sprachgesteuerten Assistenten und barrierefreien Technologien für Menschen mit eingeschränktem Seh- oder Hörvermögen. Die Fähigkeit, gesprochene Sprache präzise und schnell in geschriebenen Text umzuwandeln, ist eine Grundvoraussetzung für die weitere Integration von KI in unseren Alltag.

NeMo Parakeet ist ein XXL-Modell des FastConformer Transducer mit etwa 1,1 Milliarden Parametern. Es handelt sich um eine optimierte Version des Conformer-Modells, das mit einer achtfachen, tiefenweise separablen konvolutionellen Abtastung ausgestattet ist. Das Modell wurde in einem Multitasking-Setup mit einem Transducer-Decoder (RNNT) und einem Verlustmodell trainiert. Die Architektur des Modells ist auf Effizienz und Skalierbarkeit ausgelegt, um auch mit einer großen Menge an Daten zurechtzukommen.

Für das Training dieser Modelle wurde das NVIDIA NeMo-Toolkit verwendet, das über mehrere hundert Epochen zum Einsatz kam. Die Tokenizer für diese Modelle wurden mit den Texttranskripten des Trainingssatzes erstellt. Als Datengrundlage für das Training diente eine Sammlung aus 65.000 Stunden englischer Sprache, die von NVIDIA NeMo und Suno.ai zusammengestellt und vorbereitet wurde. Diese umfassten sowohl private Sammlungen als auch öffentliche Datensätze wie Librispeech, Fisher Corpus, Switchboard-1, WSJ-0 und WSJ-1, den National Speech Corpus, VCTK, VoxPopuli (EN), Europarl-ASR (EN), Multilingual Librispeech (MLS EN) und Mozilla Common Voice.

Die Leistung von ASR-Modellen wird üblicherweise anhand der Wortfehlerrate (Word Error Rate, WER) gemessen. Da das NeMo Parakeet-Modell mit einer Vielzahl von Domänen und einem wesentlich größeren Korpus trainiert wurde, zeigt es generell eine bessere Leistung bei der Transkription von Audio in verschiedenen Kontexten.

Die Verwendung des Modells ist relativ einfach. Nach der Installation des NVIDIA NeMo-Toolkits können Entwickler das Modell für Inferenzen oder zum Feintuning auf einem anderen Datensatz als vortrainierten Checkpoint verwenden. Das Modell akzeptiert 16.000 Hz Mono-Kanal-Audio (wav-Dateien) als Eingabe und liefert transkribierte Sprache als Zeichenkette für eine gegebene Audioquelle.

Für die Bereitstellung in produktiven Umgebungen bietet NVIDIA mit Riva ein beschleunigtes Speech-AI-SDK an, das auf verschiedenen Plattformen eingesetzt werden kann. Obwohl das NeMo Parakeet-Modell noch nicht direkt von Riva unterstützt wird, bietet Riva eine Reihe von Modellen mit Weltklasse-Genauigkeit und Unterstützung für Echtzeit-Spracherkennung.

Die Bedeutung solcher Entwicklungen kann nicht hoch genug eingeschätzt werden. Die Verbesserung der Genauigkeit und Geschwindigkeit von ASR-Systemen hat direkte Auswirkungen auf die Zugänglichkeit und Benutzerfreundlichkeit von Technologien, die auf Spracherkennung angewiesen sind. Mit Modellen wie NeMo Parakeet wird der Weg für innovative Anwendungen geebnet, die von verbesserten Benutzerinteraktionen bis hin zu neuen Möglichkeiten für Menschen mit Behinderungen reichen.

Die Entwicklung von NeMo Parakeet ist ein weiterer Beweis dafür, wie die Kollaboration zwischen führenden Unternehmen und die Nutzung von umfangreichen Datensätzen die Grenzen des Möglichen in der KI-Forschung erweitern. Es ist zu erwarten, dass die Weiterentwicklung solcher Modelle dazu beitragen wird, Spracherkennungstechnologien noch nahtloser in unsere digitalen Ökosysteme zu integrieren und uns einen Schritt näher an eine Zukunft zu bringen, in der die Interaktion mit Maschinen so natürlich ist wie die Kommunikation zwischen Menschen.

Was bedeutet das?