Durchbrüche in der Text-to-Speech Technologie: NaturalSpeech ebnet den Weg für die Zukunft der Sprachsynthese

Kategorien:

No items found.

Freigegeben:

June 14, 2024

Artikel jetzt als Podcast anhören

Im Bereich der künstlichen Intelligenz (KI) und speziell im Sektor der Text-to-Speech (TTS) Technologie, hat sich in den letzten Jahren eine rasante Entwicklung vollzogen. Die jüngsten Fortschritte zeigen, dass die Fähigkeit von Computern, menschliche Sprache nicht nur zu imitieren, sondern auch in verschiedenen Stimmlagen und Stilen zu erzeugen, schnell voranschreitet. Ein herausragendes Beispiel für diese Entwicklung ist die NaturaSpeech TTS-Serie, die von einem Forschungsteam bei Microsoft Research Asia und Microsoft Azure Speech entwickelt wurde.

Die erste Version, NaturalSpeech, wurde im Mai 2022 veröffentlicht und bot bereits eine Sprachqualität auf menschlichem Niveau. Dieses System war auf einen einzigen Sprecher beschränkt und wurde von der renommierten wissenschaftlichen Zeitschrift Transactions on Pattern Analysis and Machine Intelligence (TPAMI) akzeptiert. Die Qualität der synthetisierten Sprache war so hoch, dass sie auf Satzebene fast nicht von menschlichen Aufnahmen zu unterscheiden war.

Die nächste Iteration, NaturalSpeech 2, wurde im April 2023 vorgestellt und als Spotlight-Arbeit für die International Conference on Learning Representations (ICLR) im Jahr 2024 akzeptiert. Diese Version markiert einen signifikanten Sprung nach vorn, da sie Zero-Shot-Fähigkeiten und Multi-Speaker-Unterstützung bietet. Zero-Shot bedeutet in diesem Kontext, dass das System in der Lage ist, Stimmen und Gesangsstile zu erzeugen, ohne vorher spezifisch dafür trainiert worden zu sein. Somit kann NaturalSpeech 2 eine Vielzahl von Stimmtimbern und Sprachstilen erzeugen, die es vorher noch nie "gehört" hat.

NaturalSpeech 2 verwendet ein latentes Diffusionsmodell, um Sprache auf natürliche Weise zu erzeugen und bietet eine hohe Ausdrucksfähigkeit, Robustheit und Klangtreue. Ein wichtiger Bestandteil des Systems ist ein Audio-Codec-Encoder/Decoder, der mit residualen Vektorquantisierern arbeitet. Diese erlauben eine effiziente Rekonstruktion von Sprachwellenformen und die Erzeugung von quantisierten latenten Vektoren, die dann vom Diffusionsmodell, abhängig von Texteingaben, generiert werden.

Ein weiterer interessanter Aspekt von NaturalSpeech 2 ist der Einsatz eines Sprachprompting-Mechanismus, der In-Context-Lernen in dem Dauer- und Tonhöhenprädiktor sowie dem Diffusionsmodell ermöglicht. Dieser Mechanismus ist entscheidend für die Zero-Shot-Fähigkeiten des Systems und hilft, die Sprachqualität auf unbekannten Sprechern zu evaluieren und zu verbessern.

Das Forschungsteam hat NaturalSpeech 2 auf große Datensätze mit insgesamt 44.000 Stunden an Sprach- und Gesangsdaten skaliert. In Evaluierungen übertrifft das System vorherige TTS-Systeme deutlich in Bezug auf Prosodie, Klangfarbenähnlichkeit, Robustheit und Sprachqualität. Es kann sogar Zero-Shot-Gesangssynthese mit nur einem Sprachprompt ausführen, was in früheren Systemen nicht möglich war.

Das Forschungsteam hat auch ethische Überlegungen einbezogen, da die Möglichkeit besteht, dass NaturalSpeech 2 zur Nachahmung spezifischer Sprecheridentitäten missbraucht werden könnte. Daher wurden die Experimente unter der Annahme durchgeführt, dass die Benutzer der Zielsprecher in der Sprachsynthese zustimmen. Sollte das Modell auf unbekannte Sprecher in der realen Welt verallgemeinert werden, müsste ein Protokoll sicherstellen, dass der Sprecher der Verwendung seiner Stimme zustimmt, und ein Modell zur Erkennung synthetisierter Sprache implementiert werden.

Mit dem Ausblick auf NaturalSpeech 3, welches vor März 2024 erscheinen soll und als "viel mächtiger" beschrieben wird, steht die Forschung und Entwicklung im Bereich TTS vor weiteren spannenden Durchbrüchen.

Die Fortschritte in der TTS-Technologie haben weitreichende Implikationen für viele Anwendungsbereiche, von der Verbesserung der Zugänglichkeit für Menschen mit Behinderungen bis hin zur Entwicklung von realistischeren virtuellen Assistenten, Chatbots und Unterhaltungsangeboten. Während sich die Technologie weiterentwickelt, ist es entscheidend, dass die Forschung und Anwendung dieser Systeme verantwortungsbewusst und unter Berücksichtigung ethischer Standards erfolgt. Die Arbeit von Microsoft Research Asia und Microsoft Azure Speech zeigt, dass es möglich ist, an der Spitze der technologischen Innovation zu stehen und dabei verantwortungsbewusste KI-Prinzipien zu befolgen.

Was bedeutet das?

Wie können wir Ihnen heute helfen?

Das Expertenteam von Mindverse freut sich darauf, Ihnen zu helfen.

No items found.