Meta präsentiert MAGNeT: Wendepunkt der KI-gestützten Audioerzeugung

Kategorien:

No items found.

Freigegeben:

June 14, 2024

Artikel jetzt als Podcast anhören

In einer bemerkenswerten Entwicklung auf dem Gebiet der künstlichen Intelligenz und Audioverarbeitung hat Meta, das Unternehmen hinter sozialen Netzwerken wie Facebook und Instagram, ein neues Modell namens MAGNeT veröffentlicht. Dieses Modell, das auf der Plattform Hugging Face präsentiert wurde, steht für Masked Audio Generation using a Single Non-Autoregressive Transformer und markiert einen Wendepunkt in der Erzeugung von Audioinhalten.

MAGNeT wurde von einem Team aus Forschern entwickelt, zu denen Alon Ziv, Itai Gat, Gael Le Lan, Tal Remez, Felix Kreuk, Alexandre Défossez, Jade Copet, Gabriel Synnaeve und Yossi Adi gehören. Dieses Modell unterscheidet sich grundlegend von früheren Ansätzen, indem es direkt auf mehrere Ströme von Audiotokens operiert und auf einen einzigen, nicht-autoregressiven Transformator setzt. Während des Trainings prognostiziert MAGNeT Spannen von maskierten Tokens, die von einem Maskierungsscheduler ausgewählt wurden. In der Inferenzphase wird die Ausgabesequenz schrittweise durch mehrere Dekodierungsschritte aufgebaut.

Ein besonderes Merkmal von MAGNeT ist die Einführung einer neuartigen Umgewichtungsmethode, die die Qualität des erzeugten Audios weiter verbessern soll. Hierbei wird ein externes, vortrainiertes Modell verwendet, um die Vorhersagen von MAGNeT neu zu bewerten und zu reihen, die dann für spätere Dekodierungsschritte genutzt werden. Darüber hinaus erforschten die Wissenschaftler eine Hybridversion von MAGNeT, bei der autoregressive und nicht-autoregressive Modelle kombiniert werden, um die ersten Sekunden einer Sequenz autoregressiv und den Rest parallel zu dekodieren.

Die Forscher demonstrierten die Effektivität von MAGNeT für die Aufgabe der Text-zu-Musik- und Text-zu-Audioerzeugung und führten eine umfassende empirische Bewertung durch, die sowohl objektive Metriken als auch Humanstudien umfasste. Das vorgeschlagene Verfahren ist vergleichbar mit den bewerteten Baselines, während es deutlich schneller ist – bis zu sieben Mal schneller als die autoregressive Baseline.

Die Forschung zeigt, dass MAGNeT nicht nur für die Generierung von Musik und Audio aus Text, sondern auch für interaktive Anwendungen, bei denen Latenz eine wichtige Rolle spielt, geeignet ist. Der Ansatz könnte Anwendungen in vielen Bereichen finden, von der Musikproduktion bis zur Erstellung von Soundeffekten für Medien und Spiele.

Zusätzlich zur Veröffentlichung des Modells haben die Forscher auch eine lokale Demoversion auf Gradio bereitgestellt, die es Interessierten ermöglicht, MAGNeT in Aktion zu sehen und eigene Erfahrungen mit dem Modell zu machen. Die Modelle und der Quellcode sind über die GitHub-Seite von Meta zugänglich, was die Forschung und Weiterentwicklung auf dem Gebiet der AI-generierten Audioinhalte fördern dürfte.

Das Engagement von Meta für die Offenlegung und Bereitstellung solcher Modelle unterstreicht das Potenzial und die Bedeutung von transparenter und zugänglicher Forschung im Bereich der künstlichen Intelligenz. Mit MAGNeT und ähnlichen Entwicklungen eröffnen sich neue Horizonte in der Welt der Audioinhalte, die durch künstliche Intelligenz nicht nur schneller, sondern auch qualitativ hochwertiger generiert werden können.

Was bedeutet das?