Meta stellt JASCO vor: Ein bahnbrechendes Modell zur Musikgenerierung
Einführung in JASCO
Meta's Forschungsabteilung für Künstliche Intelligenz, bekannt als FAIR (Fundamental AI Research), hat ein neues generatives Musikmodell namens JASCO entwickelt. JASCO steht für "Joint Audio and Symbolic Conditioning for Temporally Controlled Text-to-Music Generation". Dieses Modell ermöglicht die Musikgenerierung unter Verwendung von verschiedenen Eingaben wie Akkorden oder Beats und verbessert dadurch die Kontrollierbarkeit der generierten Musik.
Technische Details des Modells
JASCO basiert auf dem Flow Matching-Modellierungsparadigma und verwendet eine neuartige Konditionierungsmethode. Diese Methode erlaubt die Musikgenerierung sowohl auf lokaler Ebene (z.B. Akkorde) als auch auf globaler Ebene (Textbeschreibung). Die Modellarchitektur kombiniert symbolische und audio-basierte Konditionen, um qualitativ hochwertige Musikproben zu erzeugen, die an globale Textbeschreibungen sowie an fein abgestimmte lokale Kontrollen angepasst sind.
Symbolische und Audio-Konditionen
Das Modell nutzt verschiedene symbolische Kontrollsignale wie Akkorde und Melodien sowie Audio-Repräsentationen wie getrennte Schlagzeugspuren oder vollständige Mixe. Durch die Anwendung von Information Bottleneck-Schichten in Verbindung mit temporaler Unschärfe können relevante Informationen im Hinblick auf spezifische Kontrollen extrahiert werden. Dies ermöglicht die Integration sowohl symbolischer als auch audio-basierter Bedingungen in dasselbe Text-zu-Musik-Modell.
Anwendungsmöglichkeiten und Vorteile
JASCO bietet vielseitige Kontrollmöglichkeiten und eine hohe Anpassungsfähigkeit, was es zu einem wertvollen Werkzeug für Musikschaffende, Werbetreibende und Videospieldesigner macht. Die Möglichkeit, sowohl globale als auch lokale Kontrollen zu verwenden, erlaubt eine präzisere und kreativere Musikproduktion. Die Einbindung von Akkorden, Melodien und anderen musikalischen Elementen ermöglicht es den Nutzern, die generierte Musik nach ihren spezifischen Bedürfnissen und Vorlieben zu gestalten.
Bewertung und Ergebnisse
Die Entwickler von JASCO haben das Modell hinsichtlich der Generierungsqualität und der Einhaltung der Bedingungen evaluiert. Dabei wurden sowohl objektive Metriken als auch menschliche Studien herangezogen. Die Ergebnisse zeigen, dass JASCO im Vergleich zu den bewerteten Basismodellen eine vergleichbare Generierungsqualität bietet und gleichzeitig eine wesentlich bessere und vielseitigere Kontrolle über die generierte Musik ermöglicht.
Veröffentlichung und zukünftige Entwicklungen
Meta plant, den JASCO Inferenzcode als Teil seiner AudioCraft AI Audio-Modellbibliothek unter einer MIT-Lizenz zu veröffentlichen. Das vortrainierte Modell wird unter einer nicht-kommerziellen Creative Commons-Lizenz verfügbar gemacht. Diese offene Wissenschaftsinitiative zielt darauf ab, Iterationen zu inspirieren und letztendlich die Weiterentwicklung der KI auf verantwortungsvolle Weise voranzutreiben.
AudioSeal: Ein weiteres Tool von Meta
Neben JASCO hat das FAIR-Team auch AudioSeal entwickelt, ein Werkzeug zur Wasserzeichenerstellung für KI-generierte Sprache. AudioSeal ermöglicht die lokaliserte Erkennung von KI-generierten Sprachsegmenten innerhalb eines längeren Audioclips und ist damit das erste seiner Art.
Fazit
Mit der Einführung von JASCO setzt Meta einen neuen Standard in der generativen Musikmodellierung. Das Modell bietet eine verbesserte Kontrollierbarkeit und Vielseitigkeit, was es zu einem wertvollen Werkzeug für verschiedene Anwendungsbereiche macht. Die Veröffentlichung des Modells und der begleitenden Werkzeuge unter offenen Lizenzen zeigt Metas Engagement für die Förderung der offenen Wissenschaft und der verantwortungsvollen Entwicklung von KI-Technologien.
Bibliographie:
- https://www.facebook.com/AIatMeta/videos/joint-audio-and-symbolic-conditioning-for-temporally-controlled-text-to-music-ge/369799762383426/
- https://arxiv.org/abs/2406.10970
- https://www.musicbusinessworldwide.com/metas-new-generative-ai-model-can-take-chords-or-beats-and-turn-them-into-songs/
- https://www.threads.net/@aiatmeta?hl=de
- https://www.researchgate.net/publication/381485161_Joint_Audio_and_Symbolic_Conditioning_for_Temporally_Controlled_Text-to-Music_Generation
- https://www.digitalmusicnews.com/2024/06/21/meta-jasco-genai-model-inputs-chords-beats/
- https://x.com/aiatmeta?lang=kn
- https://arxiv.org/html/2406.10970v1
- https://www.threads.net/@damiannixey/post/C8dwM-PPJx3?hl=de