Sprachgenerierung im Wandel Fortschritte und Perspektiven moderner TTS-Technologien

Kategorien:

No items found.

Freigegeben:

June 14, 2024

In den letzten Jahren hat die Sprachgenerierung bemerkenswerte Fortschritte gemacht. Heute sind wir an einem Punkt angelangt, an dem die Einmalgenerierung von Sprache oftmals kaum noch von der menschlichen Stimme zu unterscheiden ist. Dieser Fortschritt eröffnet viele neue Möglichkeiten, insbesondere in der Integration dieser Technologie mit großen Sprachmodellen, die eine Vielzahl von Anwendungen revolutionieren könnten.

Ein zentrales Anwendungsfeld der fortschrittlichen Sprachgenerierung sind assistive Gesprächssysteme, die in Echtzeit natürlich klingende und flüssige Konversationen ermöglichen müssen. Herkömmliche Spitzenmodelle wie VALL-E und SoundStorm, die auf hierarchischen neuronalen Audiocodecs basieren, benötigen große neuronale Komponenten und umfangreiche Trainingsdaten, um gute Ergebnisse zu erzielen. Im Gegensatz dazu versucht MQTTS, kompaktere konversationelle TTS-Modelle zu entwickeln, die sich auf kleinere Mengen von realen Konversationsdaten stützen. Allerdings führt die autoregressive Natur dieser Modelle zu einer hohen Inferenzlatenz, was ihre Echtzeitfähigkeit einschränkt.

Um die aktuellen Einschränkungen der Spitzen-TTS-Modelle zu überwinden und gleichzeitig ihre Stärken zu nutzen, wurde nun das Pheme-Modell vorgestellt. Pheme zeichnet sich dadurch aus, dass es kompakte, aber leistungsstarke Modelle bietet, die parallele Sprachgenerierung von natürlich klingender Konversationssprache ermöglichen. Außerdem kann es effizient auf kleineren Mengen von Konversationsdaten trainiert werden, was den Datenbedarf um das Zehnfache reduziert und dennoch die Qualität der autoregressiven TTS-Modelle erreicht oder sogar übertrifft. Darüber hinaus wurde gezeigt, dass durch eine einfache Lehrer-Schüler-Destillation eine erhebliche Verbesserung der Stimmqualität für Einzelredner-Setups erzielt werden kann, die sich ausschließlich auf synthetische Sprache stützt, die von viel größeren Lehrermodellen generiert wird. Audio-Beispiele und vortrainierte Modelle stehen online zur Verfügung.

Die Entwicklung von Pheme ist ein wichtiger Schritt in der Welt der Sprachsynthese und Text-to-Speech-Technologie. Es bietet eine Lösung für die effiziente und qualitativ hochwertige Generierung von Sprache, die in Echtzeit konversationelle Interaktionen ermöglicht. Dies ist besonders relevant für Unternehmen wie Mindverse, die sich auf kundengeführte Sprachassistenten konzentrieren und Wert darauf legen, dass Anrufer frei sprechen können und darauf vertrauen, dass sie nützliche Antworten erhalten.

Die Verbesserung der automatischen Spracherkennung (ASR) und der Text-zu-Sprache-Technologie (TTS) ist für Unternehmen wie PolyAI von großer Bedeutung. Modelle wie BigVGAN, die auf Generative Adversarial Networks (GANs) basieren, haben bereits gezeigt, dass sie qualitativ hochwertige, natürlich klingende Sprache über verschiedene Sprachen hinweg generieren können. Solche Modelle sind wertvoll für mehrsprachige TTS-Anwendungen und stellen einen bedeutenden Schritt hin zu einem globalen TTS-System dar, das den vielfältigen sprachlichen Bedürfnissen gerecht wird.

Die Skalierung von GAN-Architekturen ist jedoch nicht ohne Herausforderungen, da sie anfällig für Zusammenbrüche sein können und oft sehr empfindlich sind. Um die Grenzen ihres Modells zu erweitern, hat das Machine Learning-Team von PolyAI eine Vielzahl von Hyperparametern optimiert und schließlich ein 300 Millionen Parameter großes Modell entwickelt. Dieses Modell ist dreimal größer als bestehende Modelle und ermöglicht die Generierung von noch realistischer und natürlicher klingender Sprache.

Zum Bewerten der Leistung von BigVGAN werden zwei standardisierte automatische Metriken verwendet: Training Error und Perceptual Evaluation of Speech Quality (PESQ). PESQ ist ein anerkannter Industriestandard für Audioqualität, der Merkmale wie Klangschärfe, Lautstärke des Anrufs, Hintergrundgeräusche und Audioverzerrungen berücksichtigt. PESQ liefert eine Punktzahl zwischen -0,5 und 4,5, wobei höhere Punktzahlen eine bessere Qualität anzeigen.

Um zur Forschungsgemeinschaft beizutragen und die Zusammenarbeit zu fördern, hat PolyAI BigVGAN-L auf dem Hugging Face Model Hub veröffentlicht. Forscher und Entwickler können nun auf unseren Vocoder zugreifen und ihn in ihren eigenen Anwendungen verfeinern. Durch das Teilen unserer Arbeit mit der Community hoffen wir, weitere Fortschritte in der Sprachsynthese zu inspirieren, offene Diskussionen zu fördern und die Entwicklung neuer Anwendungen und Innovationen zu beschleunigen, die die Kraft fortschrittlicher Vocoder wie BigVGAN nutzen.

Zusammenfassend lässt sich sagen, dass die jüngsten Entwicklungen in der Sprachgenerierung und -synthese, insbesondere mit Modellen wie Pheme und BigVGAN, die Art und Weise, wie wir mit Maschinen interagieren, grundlegend verändern könnten. Unternehmen, die an der Spitze der Konversations-KI stehen möchten, sollten diese Technologien in Betracht ziehen und sich mit Partnern wie Mindverse zusammenschließen, um benutzerdefinierte Lösungen zu entwickeln, die auf ihre spezifischen Bedürfnisse zugeschnitten sind.

Was bedeutet das?

No items found.