Googles Durchbruch in der Sprachsynthese ermöglicht Kommunikation für alle

Kategorien:
No items found.
Freigegeben:
August 27, 2024

Google gibt Menschen die Stimme zurück, die sie nie hatten

Einführung in die neue Technologie

Die sprachgesteuerte Technologie hat in den letzten Jahren bemerkenswerte Fortschritte gemacht. Dank der neuesten Entwicklungen im Bereich der Stimmensynthese kann nun schon ein paar Sekunden Audioaufzeichnung ausreichen, um die Stimme einer Person zu synthetisieren. Diese bahnbrechende Technologie ist besonders vorteilhaft für Menschen mit Sprachbehinderungen.

Die neue Null-Schuss-Stimmenübertragungsmodul von Google

Google hat kürzlich ein neues Null-Schuss-Stimmenübertragungsmodul für Text-zu-Sprache-Systeme vorgestellt. Diese Technologie zielt darauf ab, Stimmen für Menschen mit Bedingungen wie Dysarthrie wiederherzustellen, die ihre typische Stimme verloren haben oder nie eine hatten. „Sprecher mit degenerativen neurologischen Erkrankungen, wie amyotrophe Lateralsklerose (ALS), Parkinson und Multiple Sklerose, können im Laufe der Zeit eine Verschlechterung einiger einzigartiger Merkmale ihrer Stimme erfahren“, erklären die Autoren in einem Blogbeitrag. „Einige Menschen werden mit Bedingungen wie Muskeldystrophie geboren, die das Artikulationssystem beeinträchtigen und ihre Fähigkeit, bestimmte Laute zu erzeugen, einschränken.“

Revolutionäre Ansätze und minimale Anforderungen

Im Gegensatz zu früheren Technologien, die umfangreiche Sprachproben benötigten, um Modelle zu trainieren, benötigt Googles neuer Ansatz kein Training. Er verwendet kurze Audio-Referenzclips während der Generierung, um die Stimme einer Person auf die synthetisierte Ausgabe zu übertragen. Dies macht es besonders geeignet für Menschen mit begrenzten oder atypischen Sprachproben.

Hochwertige Sprachsynthese aus kurzen Proben

Die Forscher integrierten ihr Stimmenübertragungsmodul in ein Text-zu-Sprache-System und demonstrierten dessen Wirksamkeit bei der Wiederherstellung von Stimmen für Sprecher, die ihre typische Sprache vor der Verschlechterung aufgezeichnet hatten. Bemerkenswerterweise produzierte das Modell qualitativ hochwertige Sprache mit starker Stimmtreue, selbst bei atypischen Eingabeproben. Das Modul nimmt ein 2- bis 14-Sekunden-Spektrogramm und extrahiert akustisch-phonetische und prosodische Stimmmerkmale. Diese werden an andere Schichten als Einbettungsvektor weitergegeben.

Fallstudien und praktische Anwendungen

In einer Fallstudie stellte der taube Google-Forscher Dimitri Kanevsky 12 Sekunden seiner atypischen Stimme als Referenz zur Verfügung. Das Modell synthetisierte ein Transkript von Kanevskys ursprünglichem Video. Kollegen bewerteten die Ähnlichkeit der Ausgangsstimme mit seiner eigenen im Durchschnitt mit 8,1 von 10 Punkten. Eine weitere Studie konzentrierte sich auf Aubrie Lee, eine Google-Mitarbeiterin mit Muskeldystrophie, die nie eine typische Stimme hatte. Mit 14 Sekunden von Lees atypischer Referenzstimme synthetisierte das Modell das Transkript ihres Videos. Lee selbst bewertete die Ähnlichkeit mit 8 von 10 Punkten.

Multilinguale Fähigkeiten und globale Reichweite

Die Forscher zeigten auch die Fähigkeit des Modells, Stimmen in andere Sprachen, einschließlich Französisch, Spanisch, Italienisch, Arabisch, Deutsch, Russisch, Hindi und Norwegisch, zu übersetzen. Audiodateien sind auf der GitHub-Seite des Projekts verfügbar.

Adressierung potenziellen Missbrauchs und zukünftige Verfügbarkeit

Um Missbrauch zu verhindern, verwendet Google sein SynthID-Wasserzeichensystem. Dieses bettet nicht wahrnehmbare Informationen in die synthetisierte Audiodatei ein, wodurch die Identifizierung potenziell manipulierter Inhalte ermöglicht wird. Google merkt an, dass das Missbrauchsrisiko für Menschen, die nie eine typische Sprache hatten, geringer ist, da die synthetische Natur der Ausgabe offensichtlich wäre. Vor kurzem verzögerte Microsoft die Veröffentlichung eines ähnlichen leistungsstarken Sprachsynthesemodells aufgrund des Mangels an einem zuverlässigen Kennzeichnungssystem. Google hat noch keine Pläne angekündigt, ihr neues System öffentlich zu veröffentlichen.

Schlussfolgerung

Die Entwicklung des Null-Schuss-Stimmenübertragungsmoduls von Google für Text-zu-Sprache-Systeme stellt einen bedeutenden Fortschritt im Bereich der Sprachsynthese dar. Diese Technologie hat das Potenzial, die Lebensqualität von Menschen mit Sprachstörungen erheblich zu verbessern, indem sie ihnen eine Stimme gibt, die sie verloren haben oder nie hatten. Die schnelle und qualitativ hochwertige Produktion von synthetischer Sprache aus kurzen Audio-Referenzproben zeigt die Effektivität und Vielseitigkeit dieses neuen Ansatzes.

Bibliografie

- https://the-decoder.com/google-gives-people-back-the-voice-they-never-had/ - https://support.google.com/voice/answer/159519?hl=en - https://support.google.com/voice/thread/183992776/google-voice-number-taken?hl=en - https://www.reddit.com/r/Googlevoice/comments/113l17r/google_voice_suspended_no_remedy/ - https://www.vrt.be/vrtnws/en/2019/07/10/google-employees-are-eavesdropping-even-in-flemish-living-rooms/ - https://www.mass.gov/news/google-voice-scams - https://www.reconciliation.org.au/reconciliation/support-a-voice-to-parliament/ - https://allaboutcookies.org/google-voice-scams - https://www.youtube.com/watch?v=pDhukTKM1ac - https://www.googlenestcommunity.com/t5/Home-Automation/Broadcast-messages-are-no-longer-longer-voice-messages/m-p/493619
Was bedeutet das?