StreamVoice und VALL-E: Transformation der Sprachsynthese durch KI

Kategorien:
No items found.
Freigegeben:

Im Zeitalter der digitalen Transformation erleben wir eine beeindruckende Entwicklung in der künstlichen Intelligenz, insbesondere im Bereich der Sprachsynthese und -konvertierung. Mit der Einführung von StreamVoice, einem kontextbewussten Sprachmodell für Echtzeit-Nullschuss-Stimmenkonvertierung, wird ein neues Kapitel in der Geschichte der KI-gestützten Kommunikationstechnologie aufgeschlagen.

Bisherige Modelle zur Stimmenkonvertierung, die auf Sprachmodellen basieren, waren auf eine Offline-Konvertierung angewiesen. Sie benötigten die vollständige Quellsprache, um semantische Inhalte in akustische Merkmale zu überführen. Dieser Prozess war zeitaufwändig und schränkte die Anwendbarkeit in Echtzeitanwendungen stark ein. StreamVoice hingegen nutzt ein vollständig kausales, kontextbewusstes Sprachmodell mit einem zeitunabhängigen akustischen Vorhersageinstrument. Durch die wechselweise Verarbeitung von semantischen und akustischen Merkmalen in jedem Schritt der Autoregression wird die Abhängigkeit von der vollständigen Quellsprache beseitigt.

Um die Herausforderungen der unvollständigen Kontextinformationen, die bei der Echtzeitverarbeitung auftreten können, zu bewältigen, verbessert StreamVoice die Kontextwahrnehmung des Sprachmodells durch zwei Strategien: Erstens wird eine lehrergeleitete Kontextvoraussicht eingesetzt, bei der ein Lehrermodell während des Trainings den gegenwärtigen und zukünftigen semantischen Kontext zusammenfasst, um die Vorhersagen des Modells für fehlende Kontexte zu leiten. Zweitens wird eine semantische Maskierungsstrategie verwendet, die die akustische Vorhersage aus vorangehenden beschädigten semantischen und akustischen Eingaben fördert und so die Kontextlernfähigkeit verbessert. Bemerkenswert ist, dass StreamVoice das erste auf einem Sprachmodell basierende Streaming-Nullschuss-Stimmenkonvertierungsmodell ist, das keine Zukunftsvorhersage benötigt.

Die experimentellen Ergebnisse zeigen, dass StreamVoice die Fähigkeit zur Streaming-Konvertierung besitzt und gleichzeitig eine Nullschuss-Leistung beibehält, die mit nicht-streamingbasierten Stimmenkonvertierungssystemen vergleichbar ist.

Ein weiterer Durchbruch in der Sprachsynthese ist VALL-E, ein neuronales Codec-Sprachmodell, das als Nullschuss-Text-zu-Sprach-Synthesizer dient. VALL-E wird mit diskreten Codes trainiert, die von einem vorhandenen neuronalen Audio-Codec-Modell abgeleitet sind, und betrachtet Text-zu-Sprach-Synthese als eine Aufgabe des bedingten Sprachmodellierens. In der Vortrainingsphase wird das Modell mit 60.000 Stunden englischer Sprachdaten trainiert, was hundertfach größer ist als die Datenmengen, die in bestehenden Systemen verwendet werden. VALL-E zeigt in-Kontext-Lernfähigkeiten und kann hochwertige personalisierte Sprache mit nur einer 3-sekündigen Aufnahme eines unbekannten Sprechers als akustischen Auslöser synthetisieren. Die Ergebnisse zeigen, dass VALL-E im Vergleich zu den besten Nullschuss-Text-zu-Sprach-Systemen in Bezug auf Sprachnatürlichkeit und Sprecherähnlichkeit deutlich besser abschneidet. Darüber hinaus kann VALL-E die Emotion und akustische Umgebung des akustischen Auslösers in der Synthese bewahren.

Die Einführung von VALL-E repräsentiert eine methodische Wende in der Sprachsynthese, indem es den Zwischenschritt der Mel-Spektrogramm-Erzeugung durch direkte Erzeugung diskreter Audio-Codec-Codes ersetzt. Dies ermöglicht die Nutzung von großen, diversifizierten und mehrsprechenden Sprachdaten, was zu starken in-Kontext-Lernfähigkeiten führt.

Zusammenfassend lässt sich sagen, dass sowohl StreamVoice als auch VALL-E nicht nur die Grenzen dessen, was bisher in der Echtzeit-Stimmenkonvertierung und in der Text-zu-Sprach-Synthese möglich war, verschieben, sondern auch neue Möglichkeiten für Echtzeitanwendungen, Sprachbearbeitung und Inhaltskreation eröffnen. Diese Fortschritte sind ein Zeugnis dafür, wie weit die KI-Forschung gekommen ist und welche Türen sie in der Welt der Kommunikationstechnologie öffnet. Mindverse verfolgt diese Entwicklungen mit großem Interesse, da sie das Potenzial haben, die Art und Weise, wie wir mit Maschinen interagieren und wie Maschinen untereinander kommunizieren, grundlegend zu verändern.

Was bedeutet das?
No items found.