Parakeet-TDT: Meilenstein in der automatischen Spracherkennung durch Nvidia und Suno

Kategorien:
No items found.
Freigegeben:
June 14, 2024

Im Bereich der künstlichen Intelligenz und speziell in der automatischen Spracherkennung (ASR) gibt es ständige Fortschritte, die die Interaktion zwischen Mensch und Maschine immer fließender und natürlicher gestalten. Ein neues Modell, das von Nvidia und Suno präsentiert wurde, stellt einen weiteren Schritt in diese Richtung dar: das Parakeet-TDT. Mit 1,1 Milliarden Parametern übertrifft es in puncto Genauigkeit das ähnlich große Modell Parakeet-RNNT-1.1b, wie durchschnittliche Leistungsbewertungen von neun Benchmarks auf der HuggingFace Leaderboard zeigen.

Das Parakeet-TDT-Modell basiert auf dem Konzept des Transducer-Decoder (RNNT), einem Ansatz in der Spracherkennung, bei dem ein Akustikmodell und ein Sprachmodell in einem einzigen Netzwerk integriert werden. Dies erleichtert die direkte Umwandlung von gesprochener Sprache in Text. Das neue Modell zeichnet sich nicht nur durch eine verbesserte Genauigkeit aus, sondern bietet auch eine beeindruckende Echtzeit-Faktor (RTF) von 8.8e-3, was es um 64% schneller macht als das RTF des Parakeet-RNNT-1.1b mit einem RTF von 14.4e-3. Bemerkenswert ist, dass das RTF des Parakeet-TDT sogar 40% schneller ist als das des Parakeet-RNNT-0.6b (RTF 12.3), obwohl letzteres nur etwa die Hälfte der Modellgröße aufweist.

Das Parakeet-TDT-Modell ist eine Weiterentwicklung des FastConformer Transducer (etwa 1,1 Milliarden Parameter), das in Zusammenarbeit von den Teams von NVIDIA NeMo und Suno.ai entwickelt wurde. Der FastConformer ist eine optimierte Version des Conformer-Modells mit achtfacher tiefen-separierender konvolutionaler Abwärtsskalierung. Es wurde in einer Multitasking-Einstellung mit Transducer-Decoder (RNNT) Verlust trainiert.

Für die Nutzung des Modells ist die Installation des NVIDIA NeMo Toolkit erforderlich, das auf der neuesten Version von PyTorch aufbaut. Das Modell steht im NeMo-Toolkit zur Verfügung und kann als vortrainierter Checkpoint für Inferenz oder zum Feintuning auf einem anderen Datensatz verwendet werden.

Das Training des Modells erfolgte über mehrere hundert Epochen mit dem NeMo-Toolkit. Die Tokenizer, die für diese Modelle verwendet wurden, wurden anhand der Texttranskripte des Trainingssatzes erstellt. Für das Training wurden insgesamt 64K Stunden englischer Sprache verwendet, die von den Teams von NVIDIA NeMo und Suno zusammengestellt und vorbereitet wurden. Dieser Datensatz umfasst eine private Teilmenge mit 40K Stunden englischer Sprache sowie 24K Stunden aus den folgenden öffentlichen Datensätzen:

- Librispeech (960 Stunden englischer Sprache)
- Fisher Corpus
- Switchboard-1 Dataset
- WSJ-0 und WSJ-1
- National Speech Corpus (Teil 1, Teil 6)
- VCTK
- VoxPopuli (EN)
- Europarl-ASR (EN)
- Multilingual Librispeech (MLS EN) – 2.000 Stunden Subset
- Mozilla Common Voice (v7.0)
- People's Speech – 12.000 Stunden Subset

Die Leistung von ASR-Modellen wird anhand der Word Error Rate (WER) gemessen. Da dieses Modell auf mehreren Domänen und einem viel größeren Korpus trainiert wurde, wird erwartet, dass es im Allgemeinen besser bei der Transkription von Audio abschneidet. Die Leistung des Parakeet-TDT-Modells im Vergleich zu anderen Modellen in dieser Sammlung spiegelt sich in der HuggingFace ASR Leaderboard wider.

NVIDIA Riva, ein beschleunigtes Speech AI SDK, das on-prem, in allen Clouds, Multi-Cloud, Hybrid, am Edge und eingebettet eingesetzt werden kann, unterstützt das Parakeet-TDT-Modell zwar noch nicht, bietet aber unter anderem Weltklassegenauigkeit für die gängigsten Sprachen mit Modell-Checkpoints, die auf proprietären Daten mit Hunderttausenden von GPU-Rechenstunden trainiert wurden.

Die Lizenz zur Nutzung dieses Modells fällt unter CC-BY-4.0. Mit dem Herunterladen der öffentlichen und freigegebenen Version des Modells akzeptiert man die Bedingungen der CC-BY-4.0-Lizenz. Der Ansatz von Nvidia und Suno, gemeinsam an der Weiterentwicklung von ASR-Modellen zu arbeiten, zeigt das Potenzial kollaborativer Forschung im Bereich der KI und wie sie die Entwicklung von Technologien vorantreiben kann, die unser Leben erleichtern und bereichern.

Was bedeutet das?
No items found.