In einer bahnbrechenden Entwicklung in der Welt der künstlichen Intelligenz hat Meta – das Unternehmen hinter sozialen Plattformen wie Facebook und Instagram – ein neues System namens MAGNeT vorgestellt. Dieses System ist in der Lage, Text in Musik und Audio umzuwandeln. Die Besonderheit von MAGNeT besteht darin, dass es sich um ein Modell des Masked Generative Sequence Modeling handelt, das direkt mit mehreren Streams von Audiotoken arbeitet. Im Gegensatz zu früheren Ansätzen ist MAGNeT ein einstufiger, nicht-autoregressiver Transformer.
Während des Trainingsprozesses werden Spannen von Audiodaten vorhergesagt, was für die Entwicklung von Sprach- und Musikgenerierungstechnologien eine neue Herangehensweise darstellt. Die Ergebnisse von MAGNeT sind besonders interessant, da sie zeigen, dass ein einzelnes Modell verschiedene Arten von Audioinhalten erzeugen kann, ohne dabei auf vorab festgelegte Skripte oder Datenbanken mit Beispielsounds angewiesen zu sein.
Die Entwicklung von MAGNeT ist ein Teil von Metas breiterer Initiative, die darauf abzielt, die multilinguale Unterstützung und den Zugang zu Technologie weltweit zu verbessern. Im Rahmen des Massively Multilingual Speech (MMS) Projekts wurden bereits große Fortschritte erzielt, indem Technologien für die Spracherkennung und Sprachsynthese für über 1.100 Sprachen zur Verfügung gestellt wurden. Dies ist ein wichtiger Schritt zur Überwindung der Sprachbarrieren, die viele Menschen von der Nutzung moderner Technologien ausschließen.
Das MMS-Projekt nutzte unter anderem Aufnahmen des Neuen Testaments in über 1.100 Sprachen, um durchschnittlich 32 Stunden Daten pro Sprache zu sammeln. Die Forschungsteams erhöhten die Datenmenge auf über 4.000 Sprachen, indem sie auch unbeschriftete Aufnahmen verschiedener christlicher Texte einbezogen. Trotz der spezifischen Herkunft der Daten zeigte eine Analyse, dass die Modelle sowohl für männliche als auch für weibliche Stimmen gleich gut funktionieren und nicht übermäßig auf religiöse Sprache voreingenommen sind.
Für die Verarbeitung dieser umfangreichen Datensätze setzte Meta auf wav2vec 2.0, eine Vorarbeit im Bereich des selbstüberwachten Lernens von Sprachrepräsentationen, die es ermöglicht, mit weniger beschrifteten Daten effektive Systeme zu trainieren. Die selbstüberwachten Modelle wurden auf etwa 500.000 Stunden Sprachdaten in über 1.400 Sprachen trainiert – ein Umfang, der bisher unerreicht ist.
Die Ergebnisse des MMS-Projekts wurden auf verschiedenen Benchmark-Datensätzen evaluiert und zeigten, dass die auf MMS-Daten trainierten Modelle bestehende Modelle übertreffen und eine zehnfach höhere Sprachabdeckung bieten. In einem direkten Vergleich mit OpenAIs Whisper-Modell schnitten Metas Modelle beispielsweise mit einer halb so hohen Wortfehlerrate ab, obwohl MMS elfmal mehr Sprachen abdeckt.
Meta hat auch Text-to-Speech-Systeme für über 1.100 Sprachen entwickelt. Obwohl die MMS-Daten in vielen Fällen nur wenige verschiedene Sprecher pro Sprache enthalten, ist dies für die Entwicklung von Text-to-Speech-Systemen sogar von Vorteil. Die von diesen Systemen erzeugte Sprache weist eine hohe Qualität auf, wie in verschiedenen Demos demonstriert wurde.
Das Unternehmen betont, dass es trotz der ermutigenden Ergebnisse noch Verbesserungsbedarf gibt. So besteht beispielsweise das Risiko, dass das Sprach-zu-Text-Modell einzelne Wörter oder Phrasen falsch transkribiert, was zu anstößiger oder ungenauer Sprache führen könnte. Meta sieht die Zusammenarbeit innerhalb der KI-Community als entscheidend für die verantwortungsbewusste Entwicklung von KI-Technologien an.
In der Zukunft strebt Meta danach, die Sprachabdeckung weiter zu erhöhen und auch Herausforderungen wie den Umgang mit Dialekten zu meistern. Das Ziel ist es, Menschen den Zugang zu Informationen und Technologien in ihrer bevorzugten Sprache zu erleichtern und Anwendungen wie VR/AR-Technologie oder Messaging-Dienste zu ermöglichen, die jeder Stimme gerecht werden.
Insgesamt zeigt die Entwicklung von MAGNeT und dem MMS-Projekt das Potenzial auf, wie KI-Technologien nicht nur die Kommunikation und Interaktion mit Technologie vereinfachen, sondern auch zum Erhalt der sprachlichen Vielfalt der Welt beitragen können. Meta hat seine Modelle und den dazugehörigen Code öffentlich zugänglich gemacht, damit andere Forscher auf dieser Arbeit aufbauen können. Dies könnte zukünftig eine Welt ermöglichen, in der Technologie sprachliche Vielfalt fördert und nicht zum Verschwinden von Sprachen beiträgt.