EmoKnob Neues Forschungsprojekt revolutioniert emotionale Sprachsynthese

Kategorien:

No items found.

Freigegeben:

October 4, 2024

Die rasante Entwicklung der Text-to-Speech (TTS)-Technologie hat in den letzten Jahren beeindruckende Fortschritte erzielt. Heutige TTS-Systeme können natürliche und ausdrucksstarke Sprache erzeugen, die kaum von menschlicher Stimme zu unterscheiden ist. Allerdings fehlt ihnen oft die Möglichkeit, Emotionen gezielt zu steuern und in ihrer Intensität zu variieren. Ein neues Forschungsprojekt namens EmoKnob will diese Lücke schließen und die Sprachsynthese um eine feingranulare Emotionskontrolle erweitern. EmoKnob ist ein Framework, das es Nutzern ermöglicht, mithilfe weniger Demonstrationsbeispiele die emotionale Färbung von synthetisierter Sprache präzise zu beeinflussen. Das System nutzt dabei die Möglichkeiten moderner Foundation-Modelle für das Voice Cloning, die es erlauben, ausdrucksstarke Sprecherrepräsentationen zu extrahieren. Mit nur wenigen Beispielen kann EmoKnob eine Repräsentation für eine beliebige Emotion lernen und diese dann auf die Sprachsynthese anwenden. Die Entwickler von EmoKnob haben zwei Methoden entwickelt, um die Emotionskontrolle auf Basis von Textbeschreibungen zu ermöglichen. Die erste Methode nutzt synthetisch generierte Daten, die mit Hilfe von Large Language Models (LLMs) erstellt werden. Die zweite Methode basiert auf einem Retrieval-Ansatz, bei dem in einem Datensatz nach passenden Sprachbeispielen gesucht wird. Um die Qualität der Emotionskontrolle zu bewerten, haben die Forscher ein Set von Metriken entwickelt, die die Treue und Erkennbarkeit der erzeugten Emotionen messen. In objektiven und subjektiven Evaluationen konnte EmoKnob überzeugen und zeigte, dass es in der Lage ist, Emotionen effektiv in Sprache zu integrieren. In einer Umfrage gaben 83% der Teilnehmer an, dass die mit EmoKnob erzeugte Sprache die emotionale Ausdruckskraft von kommerziellen TTS-Diensten übertrifft. Die Fähigkeit von EmoKnob, Emotionen feingranular zu kontrollieren, eröffnet eine Vielzahl neuer Möglichkeiten für die Sprachsynthese. So könnten beispielsweise virtuelle Assistenten mit EmoKnob in Zukunft einfühlsamer und emotionaler auf ihre Nutzer reagieren. Auch in der Produktion von Hörbüchern und Filmen könnte EmoKnob zum Einsatz kommen, um die emotionale Wirkung von Stimmen zu verstärken. EmoKnob ist ein vielversprechendes Forschungsprojekt, das das Potenzial hat, die Sprachsynthese revolutionieren. Mit seiner feingranularen Emotionskontrolle könnte EmoKnob dazu beitragen, dass synthetische Sprache in Zukunft noch natürlicher und ausdrucksstärker wird. --- Haozhe Chen, Run Chen, Julia Hirschberg. (2024). EmoKnob: Enhance Voice Cloning with Fine-Grained Emotion Control. EMNLP 2024. https://arxiv.org/abs/2410.00316.

Was bedeutet das?