Sprachrevolution durch Amazons Milliarden-Parameter TTS-Modell

Kategorien:

No items found.

Freigegeben:

June 14, 2024

Artikel jetzt als Podcast anhören

Die Entwicklung von Text-to-Speech-Modellen (TTS) hat in den letzten Jahren deutliche Fortschritte gemacht. Eines der jüngsten und bemerkenswertesten Projekte in diesem Bereich ist die Entwicklung eines TTS-Modells mit einer Milliarde Parametern durch das Team von Amazon. Im Zuge dieses Projekts entstand BASE TTS (Big Adaptive Streamable TTS with Emergent abilities), das auf 100.000 Stunden öffentlich zugänglicher Sprachdaten trainiert wurde und damit einen neuen Standard in der Natürlichkeit synthetisierter Sprache setzt.

BASE TTS verwendet einen autoregressiven Transformer mit einer Milliarde Parametern, um Rohdatentext in diskrete Codes umzuwandeln, die als "speechcodes" bezeichnet werden. Diese werden anschließend von einem auf Konvolution basierenden Decoder in schrittweiser Weise in Wellenformen umgewandelt, was eine inkrementelle und streambare Verarbeitung ermöglicht. Die Besonderheit von BASE TTS liegt auch in seiner neuen Sprechercodierungstechnik, die Identifikation und Komprimierung mittels Byte-Pair-Encoding ermöglicht.

Die Entwicklung solcher Modelle ist nicht nur technisch anspruchsvoll, sondern auch im Hinblick auf die möglichen Anwendungen von großer Bedeutung. Die Fähigkeit, natürliche Prosa auf komplexe Sätze anzuwenden, wird durch die "emergent abilities" der großen Sprachmodelle weiter verstärkt, wenn diese mit einer zunehmenden Menge an Daten trainiert werden. BASE TTS zeigt diese Fähigkeiten bei Modellen, die mit mehr als 10.000 Stunden Training und über 500 Millionen Parametern entwickelt wurden.

Für die Messung dieser emergenten Fähigkeiten wurde ein spezialisierter Datensatz erstellt. BASE TTS wurde in Hinsicht auf seine Natürlichkeit mit anderen öffentlich verfügbaren großmaßstäblichen TTS-Systemen, wie YourTTS, Bark und TortoiseTTS, verglichen und bewertet.

Amazon Polly ist ein weiterer Dienst, der die Deep-Learning-Technologie nutzt, um menschlich klingende Sprache zu synthetisieren und so Artikel in Sprache umzuwandeln. Polly bietet Dutzende lebensechter Stimmen in einer Vielzahl von Sprachen und unterstützt die Erstellung von sprachaktivierten Anwendungen.

Die Integration verschiedener TTS-Modelle in Dienste wie Alexa ist oft eine komplexe und zeitaufwändige Aufgabe, da die zugrunde liegenden maschinellen Lernmodelle unterschiedliche Architekturen aufweisen können. Amazon hat einen universellen Modellintegrationsrahmen entwickelt, der eine schnelle und skalierbare Anpassung von Produktionsstimmmodellen ermöglicht.

Die kontinuierliche Weiterentwicklung von TTS-Modellen für verschiedene Anwendungskontexte erfordert ein skalierbares Rahmenwerk, das alle Modelle handhaben kann. Das Team hinter Amazon Polly hat es geschafft, eine solche universelle Integration zu schaffen, die verschiedene Architekturen unterstützt und für spezifische Hardwarebeschleuniger optimiert.

Die Integration erfolgt über Komponenten, die eine Texteingabe in ein Mel-Spektrogramm umwandeln, wobei die Sprache in sequenziellen Blöcken generiert wird, um die Latenz zu minimieren. Durch die Einführung von Komponenten wie dem SequenceBlock und dem StreamableBlock ist es möglich, Varianten von akustischen Modellen flexibel zu erstellen und anzupassen.

Der Addon-Ansatz, bei dem exportierte neuronale Netze zusammen mit Konfigurationsdaten bereitgestellt werden, ermöglicht es, Integrationsschichten effizient aufzubauen. Die JSON-Konfiguration erlaubt einfache Anpassungen und die Unterstützung verschiedener Hardwarebeschleuniger.

Dieser Rahmen wird bereits in der Produktion eingesetzt und ist ein wesentlicher Bestandteil der erfolgreichen Integration modernster TTS-Architekturen in bestehende Modelle.

Die Entwicklungen im Bereich der TTS-Technologie sind ein eindrucksvolles Beispiel für die Fortschritte im Bereich künstlicher Intelligenz und maschinelles Lernen. Sie eröffnen neue Möglichkeiten für die Interaktion zwischen Mensch und Maschine und können in einer Vielzahl von Anwendungen, von E-Learning bis hin zu automatisierten Sprachantwortsystemen, eingesetzt werden.

Quellen:
- Huggingface.co. (2024). BASE TTS Paper Page. [online] Verfügbar unter: https://huggingface.co/papers/2402.08093 [Zugegriffen am 14. Feb. 2024].
- Amazon Polly. (2024). Amazon Web Services. [online] Verfügbar unter: https://aws.amazon.com/polly/ [Zugegriffen am 14. Feb. 2024].
- Amazon Science. (2022). Scalable framework lets multiple text-to-speech models coexist. [online] Verfügbar unter: https://www.amazon.science/blog/text-to-speech-models-coexist-thanks-to-scalable-framework [Zugegriffen am 4. Apr. 2022].
- Twitter. (2024). AK [@_akhaliq]. [online] Verfügbar unter: https://twitter.com/_akhaliq/status/1757601502003134663 [Zugegriffen am 14. Feb. 2024].