Innovatives KI-Modell SPIRIT-LM vereint Text und gesprochene Sprache

Kategorien:
No items found.
Freigegeben:

In einer Welt, in der Sprach- und Textkommunikation stetig verschmelzen, betritt ein innovatives Modell das Feld der Künstlichen Intelligenz: SPIRIT-LM, vorgestellt von Meta. Dieses multimodale Sprachmodell vereint geschriebenen Text und gesprochene Sprache in einem System. Als Erweiterung eines bereits vorab trainierten Textsprachmodells wurde SPIRIT-LM kontinuierlich sowohl mit Text- als auch mit Spracheinheiten trainiert. Es handelt sich um eine bedeutende Entwicklung, die die Art und Weise, wie wir mit Maschinen interagieren und wie diese lernen, zu revolutionieren verspricht.

SPIRIT-LM nutzt eine Methode, bei der Sprach- und Textsequenzen als eine einzige Tokenfolge zusammengeführt und mit einer wortebenen Interleaving-Methode trainiert werden. Dies erfolgt unter Verwendung eines kleinen, automatisch kuratierten parallelen Sprach-Text-Korpus. Das Modell ist in zwei Varianten verfügbar: eine BASIS-Version, die sprachliche Semantikeinheiten verwendet, und eine EXPRESSIVE-Version, die zusätzlich zu den semantischen Einheiten auch Ausdruckseinheiten wie Tonhöhe und Stil modelliert. Für beide Versionen wird der Text mit Subword BPE-Token codiert. Das Ergebnis ist ein Modell, das sowohl die semantischen Fähigkeiten von Textmodellen als auch die Ausdrucksmöglichkeiten von Sprachmodellen aufweist.

Darüber hinaus hat Meta gezeigt, dass SPIRIT-LM in der Lage ist, neue Aufgaben im Few-Shot-Verfahren über die Modalitäten hinweg zu erlernen, beispielsweise in den Bereichen automatische Spracherkennung (ASR), Text-to-Speech (TTS) und Sprachklassifizierung.

Meta betont die Bedeutung einer offenen Wissenschaft und der öffentlichen Freigabe ihrer Modelle, um Forschung und Entwicklung voranzutreiben. Die Veröffentlichung von SeamlessM4T unter einer CC BY-NC 4.0 Lizenz ermöglicht es Forschern und Entwicklern, auf dieser Arbeit aufzubauen. Zudem wurde das Metadatenkorpus SeamlessAlign veröffentlicht, das bisher größte offene multimodale Übersetzungsdatenset mit insgesamt 470.000 Stunden abgebauter Sprach- und Textausrichtungen.

Die Herausforderung, einen universellen Sprachübersetzer zu schaffen, ist beträchtlich, da bestehende Systeme zur Sprach-zu-Sprach- und Sprach-zu-Text-Übersetzung nur einen Bruchteil der Weltsprachen abdecken. Mit SeamlessM4T wurde ein Durchbruch erzielt, indem es diese Herausforderungen angeht und eine einheitliche, multilinguale Modellierung ermöglicht, die eine Vielzahl von Sprachdatenquellen verarbeitet und Spitzenresultate liefert.

Die Entwicklung von SPIRIT-LM und anderen Projekten wie SeamlessM4T ist ein Zeugnis für Metas Engagement, die Welt durch KI-gestützte Technologien näher zusammenzubringen. Indem eine Vielzahl von Sprachen unterstützt wird, leisten diese Modelle einen Beitrag zum Erhalt der sprachlichen Vielfalt und ermöglichen es Menschen weltweit, effektiver zu kommunizieren.

Meta setzt sich weiterhin dafür ein, die Abdeckung von Sprachen zu erhöhen und die Herausforderungen bei der Handhabung von Dialekten zu bewältigen. Durch die Veröffentlichung ihrer Modelle und Codes unterstützt Meta die Forschungsgemeinschaft dabei, auf diesen Arbeiten aufzubauen und zur Erhaltung der sprachlichen Vielfalt der Welt beizutragen.

Quellen:
- Twitter-Profil von A. Khaliq: https://twitter.com/_akhaliq?lang=de
- Meta AI Blog zu SeamlessM4T: https://ai.meta.com/blog/seamless-m4t/
- Nachrichten über KI und mehrsprachige Sprachtechnologie: https://about.fb.com/news/2023/05/ai-massively-multilingual-speech-technology/
- Arxiv-Dokument zum SPIRIT-LM: https://arxiv.org/pdf/2309.07623

Was bedeutet das?
No items found.