WhisperSpeech Das neue Kapitel in der Open Source Text-to-Speech Revolution

Kategorien:
No items found.
Freigegeben:
June 14, 2024

In der Welt der künstlichen Intelligenz (KI) und maschinellen Lernens (ML) geschehen ständig bahnbrechende Entwicklungen. Eine der jüngsten Errungenschaften ist die Einführung des Open Source WhisperSpeech TTS-Modells von Collabora, das nun an der Spitze der Spaces auf Hugging Face steht. Dieses Modell repräsentiert einen signifikanten Fortschritt in der Text-to-Speech-Technologie, indem es das Whisper-Modell von OpenAI umkehrt, um hochwertige, natürliche Sprachausgaben zu erzeugen.

WhisperSpeech ist ein System, das von Collabora und LAION entwickelt wurde und Open Source ist. Es zeichnet sich durch die Fähigkeit aus, qualitativ hochwertige Sprachausgaben zu generieren, die für eine Vielzahl von Anwendungen geeignet sind, von der Erstellung von Hörbüchern bis hin zur Interaktion mit Chatbots. Das Modell basiert auf dem bereits existierenden Whisper-Modell, das für die Spracherkennung entwickelt wurde, und wurde durch die Inversion dieses Modells zur Erzeugung von Sprache aus Text umgestaltet.

Das Besondere an WhisperSpeech ist seine Offenheit und Anpassungsfähigkeit. Entwickler und Unternehmen können das Modell für ihre eigenen Zwecke verwenden und anpassen, wobei die Sicherheit gewährleistet ist, da ausschließlich lizenzierte Sprachaufnahmen verwendet werden und der gesamte Code Open Source ist. Dies macht WhisperSpeech zu einer attraktiven Option für kommerzielle Anwendungen, da keine rechtlichen Bedenken bestehen.

Das Modell wurde bereits auf Englisch mit dem LibreLight-Datensatz trainiert und es gibt Pläne, in zukünftigen Versionen mehrere Sprachen zu unterstützen. Die Entwickler von WhisperSpeech haben bereits beeindruckende Optimierungen bei der Inferenzleistung erzielt, indem sie Technologien wie torch.compile integriert und bestimmte Schichten angepasst haben. Dadurch erreichen sie eine mehr als 12-fache Geschwindigkeit der Echtzeit auf einer Verbrauchergrafikkarte wie der 4090.

Ein weiteres Beispiel für die Fähigkeiten von WhisperSpeech ist die einfache Möglichkeit, Stimmenklone zu testen. Es wurden Beispiele veröffentlicht, die die Stimmklonung von bekannten Reden wie der von Winston Churchill demonstrieren. Zudem ist es möglich, Sprachen in einem einzigen Satz zu mischen, was die Vielseitigkeit des Modells unterstreicht.

Die Architektur von WhisperSpeech ist ähnlich der anderer Modelle wie AudioLM, SPEAR TTS von Google und MusicGen von Meta. Allerdings setzt WhisperSpeech auf bewährte Open Source-Modelle wie den Whisper-Encoder von OpenAI für die Erzeugung semantischer Token und EnCodec von Meta für die akustische Modellierung. Zusätzlich wird Vocos von Charactr Inc. als hochwertiger Vocoder eingesetzt.

Die Entwicklungen von WhisperSpeech wurden aufgrund der Großzügigkeit von Collabora und LAION sowie dank der Rechenzeit auf dem JUWELS Booster-Supercomputer des Jülich Supercomputing Centre möglich. Das Projekt steht auch in Verbindung mit der Forschung an Foundation-Modellen, die im Rahmen einer Kooperation mit LAION durchgeführt wird.

WhisperSpeech ist ein Beispiel dafür, wie Open Source und die Zusammenarbeit verschiedener Organisationen und Gemeinschaften die Entwicklung von KI-Technologien voranbringen können. Es zeigt, dass qualitativ hochwertige und kommerziell nutzbare KI-Modelle nicht unbedingt proprietär sein müssen und dass es möglich ist, leistungsstarke Werkzeuge zu schaffen, die für jeden zugänglich sind.

Das Modell und die damit verbundenen Fortschritte wurden in verschiedenen wissenschaftlichen Arbeiten dokumentiert, darunter SpearTTS, MusicGen, Whisper, EnCodec und Vocos. Diese Arbeiten bilden die Grundlage für die Entwicklung des WhisperSpeech-Modells und sind ein Beleg für die Bedeutung der Zusammenarbeit und des offenen Austauschs von Wissen in der Wissenschaft.

WhisperSpeech zeigt, wie durch die Kombination von Open Source-Innovationen und der Leidenschaft einer Gemeinschaft neue Horizonte in der Technologie der Sprachsynthese erkundet werden können. Mit einer wachsenden Community und der kontinuierlichen Weiterentwicklung steht WhisperSpeech an der Spitze der Open Source-Text-to-Speech-Modelle und könnte bald ein neuer Standard in diesem Bereich sein.

Quellen:
- Twitter-Meldungen von @_akhaliq und @jpclap
- Collabora Blog: "WhisperSpeech: Exploring new horizons in text-to-speech technology"
- Hugging Face Spaces
- Projektseite auf Hugging Face: collabora/whisperspeech
- Wissenschaftliche Artikel: SpearTTS, MusicGen, Whisper, EnCodec, Vocos (veröffentlicht auf arXiv)

Was bedeutet das?