WhisperSpeech Innovationen durch Open Source im Zeitalter der KI

Kategorien:

No items found.

Freigegeben:

June 14, 2024

Artikel jetzt als Podcast anhören

In der digitalen Welt, in der wir leben, ist die Open-Source-Bewegung ein starker Motor für Innovation und Fortschritt. Dies zeigt sich besonders deutlich in der Entwicklung neuer Technologien im Bereich der künstlichen Intelligenz (KI). Ein aktuelles Beispiel dafür ist das Projekt WhisperSpeech, das von Collabora in Zusammenarbeit mit der KI-Community LAION entwickelt wurde. WhisperSpeech ist ein Open-Source-Text-zu-Sprache-System, das auf der Umkehrung des Whisper-Modells basiert.

Whisper, das von OpenAI entwickelt wurde, ist ein Modell für robuste Spracherkennung, das durch großangelegte schwache Überwachung trainiert wurde. Collabora hat dieses Modell genutzt, um ein System zu entwickeln, das Text in Sprache umwandelt. Dabei wurde besonderer Wert auf die Anpassbarkeit und Leistungsfähigkeit des Systems gelegt, ähnlich wie beim bekannten Bildgenerierungsmodell Stable Diffusion.

Die Architektur von WhisperSpeech ähnelt anderen bekannten Modellen wie AudioLM von Google oder MusicGen von Meta. Das Team von Collabora hat jedoch Wert darauf gelegt, nicht das "Not Invented Here"-Syndrom zu verfallen und stattdessen auf leistungsstarke Open-Source-Modelle zurückzugreifen. So wird der Whisper-Encoder-Block von OpenAI verwendet, um Einbettungen zu generieren, die dann quantisiert werden, um semantische Token zu erhalten. Für die Modellierung der akustischen Token wird EnCodec genutzt, und für die hochwertige Vocoder-Funktion wird Vocos von Charactr Inc. eingesetzt.

Die Entwicklung von WhisperSpeech ist ein Gemeinschaftsprojekt, das nicht nur von Collabora und LAION, sondern auch durch die großzügige Unterstützung des Jülich Supercomputing Centre und der Bereitstellung von Rechenzeit auf dem GCS-Supercomputer JUWELS Booster ermöglicht wurde. Die Zusammenarbeit mit LAION im Bereich der Grundlagenforschung zu Modellen trägt ebenfalls zur Entwicklung bei.

Einer der bemerkenswerten Aspekte von WhisperSpeech ist die Fähigkeit, Sprache in verschiedenen Sprachen zu synthetisieren. Aktuell werden Modelle auf Englisch trainiert, aber Ziel ist es, in einer der nächsten Veröffentlichungen mehrere Sprachen zu unterstützen. Interessanterweise hat das Team bereits ein kleines Modell erfolgreich auf einem Datensatz in Englisch, Polnisch und Französisch trainiert, das Voice Cloning in Französisch ermöglicht, was die Vielseitigkeit des Ansatzes unterstreicht.

Die Entwickler haben auch Fortschritte bei der Optimierung der Inferenzleistung gemacht und können nun mehr als 12-mal schneller als in Echtzeit auf einer Consumer-Grafikkarte wie der 4090 arbeiten. Es ist auch möglich, verschiedene Sprachen in einem einzigen Satz zu mischen, was für eine nahtlose Integration verschiedener Sprachen in gesprochener Form spricht.

Das Team hinter WhisperSpeech bietet auch Beratungsdienste für Open-Source- und proprietäre KI-Projekte an. Sie sind über die Website von Collabora oder den Discord-Server von LAION erreichbar.

Das Interesse an WhisperSpeech ist groß, was sich unter anderem in den sozialen Medien zeigt, wo Entwickler und Anwender ihre Begeisterung für das Projekt und für Open-Source-Technologie im Allgemeinen teilen. Die Anerkennung, die Open-Source-Entwickler für ihre Arbeit erhalten, ist ein wichtiger Faktor, der zur Weiterentwicklung von Projekten wie WhisperSpeech beiträgt. Es ist dieser Gemeinschaftsgeist und die Unterstützung, die es ermöglichen, leistungsstarke und frei zugängliche Tools für die breite Masse zu entwickeln.

Zusammenfassend ist WhisperSpeech ein Beispiel dafür, wie Open-Source-Projekte durch die Zusammenarbeit von Entwicklern, Unternehmen und Forschungseinrichtungen innovative Lösungen im Bereich der künstlichen Intelligenz vorantreiben. Das Projekt steht für einen offenen Zugang zu Technologie und Wissen, was wiederum die Grundlage für weitere Innovationen bildet.

Quellen:
- WhisperSpeech GitHub Repository: https://github.com/collabora/WhisperSpeech
- Whisper (OpenAI): https://arxiv.org/abs/2212.04356
- EnCodec (Meta): https://arxiv.org/abs/2210.13438
- Vocos (Charactr Inc.): https://arxiv.org/abs/2306.00814
- SpearTTS: https://arxiv.org/abs/2302.03540
- MusicGen: https://arxiv.org/abs/2306.05284