Meta FAIR präsentiert neue KI-Innovationen in Musik, Text und Audio

Kategorien:

No items found.

Freigegeben:

June 22, 2024

Artikel jetzt als Podcast anhören

Meta FAIR stellt innovative KI-Modelle für Musik, Text und Audio vor

Meta’s Fundamental AI Research (FAIR) Team hat kürzlich mehrere neue KI-Modelle und -Tools vorgestellt, die bahnbrechende Fortschritte in den Bereichen Audiogenerierung, Text-zu-Bild-Umwandlung und Wasserzeichen-Techniken ermöglichen. Diese Entwicklungen zielen darauf ab, die Kreativität und Effizienz in verschiedenen Anwendungsbereichen zu steigern und gleichzeitig die verantwortungsvolle Entwicklung von KI zu fördern.

JASCO: Fortschrittliche Text-zu-Musik-Generierung

Eines der herausragenden neuen Modelle von Meta ist JASCO, was für "Joint Audio and Symbolic Conditioning for Temporally Controlled Text-to-Music Generation" steht. Im Gegensatz zu bisherigen Ansätzen zur Text-zu-Musik-Generierung ermöglicht JASCO die Eingabe von verschiedenen Audiodaten wie Akkorden oder Beats, um die finale KI-generierte Musik zu verbessern. Nutzer können über Texteingaben Merkmale wie Akkorde, Schlagzeug und Melodien anpassen, um den gewünschten Klang zu erzielen. Dies bietet Künstlern mehr Kontrolle und Anpassungsmöglichkeiten bei der Erstellung von KI-generierter Musik.

Die Veröffentlichung des JASCO-Modells erfolgt als Teil der AudioCraft AI Audio-Modellbibliothek unter einer MIT-Lizenz, während das vortrainierte Modell unter einer nicht-kommerziellen Creative Commons-Lizenz verfügbar sein wird.

AudioSeal: Identifikation von KI-generierter Sprache

Ein weiteres bemerkenswertes Tool von Meta ist AudioSeal, das Wasserzeichen zu KI-generierter Sprache hinzufügt und somit Inhalte kennzeichnet, die mit KI erstellt wurden. AudioSeal ist die erste Audio-Wasserzeichentechnik, die speziell für die lokale Erkennung von KI-generierter Sprache innerhalb längerer Audioschnipsel entwickelt wurde. Diese Methode ermöglicht eine schnellere und effizientere Identifikation von KI-generierten Segmenten, was die Erkennungsgeschwindigkeit um das 485-fache erhöht.

Im Gegensatz zu anderen Modellen wird AudioSeal mit einer kommerziellen Lizenz veröffentlicht, was eine breite Anwendung ermöglicht.

Chameleon: Multimodale Text- und Bildverarbeitung

Meta stellt auch zwei Größen des multimodalen Textmodells Chameleon der Öffentlichkeit unter einer Forschungslizenz zur Verfügung: Chameleon 7B und 34B. Diese Modelle können Aufgaben bewältigen, die sowohl visuelles als auch textuelles Verständnis erfordern, wie z.B. Bildunterschriften. Meta hat jedoch entschieden, das Chameleon-Bilderzeugungsmodell derzeit nicht zu veröffentlichen, sondern sich auf die textbezogenen Modelle zu konzentrieren.

Multi-Token-Vorhersage für effizientere Sprachmodelle

Zusätzlich stellt Meta Forschern den Zugang zu ihrer Multi-Token-Vorhersagemethode zur Verfügung, die Sprachmodelle auf mehrere zukünftige Wörter gleichzeitig anstatt auf ein Wort nach dem anderen trainiert. Diese Methode kann die Effizienz und Genauigkeit von Sprachmodellen erheblich verbessern. Der Zugang zu dieser Methode wird jedoch auf nicht-kommerzielle und forschungsbezogene Nutzung beschränkt sein.

Verantwortungsvolle KI-Entwicklung und offene Wissenschaft

Die neuen KI-Modelle und Tools des FAIR-Teams von Meta haben das Potenzial, bedeutende Fortschritte im Bereich der KI zu erzielen. Durch die Bereitstellung dieser Ressourcen für Forscher und Entwickler fördert Meta die Zusammenarbeit und Innovation und treibt die Grenzen dessen, was KI erreichen kann, weiter voran. Das Engagement des Unternehmens für offene Wissenschaft und verantwortungsvolle KI-Entwicklung ist lobenswert und legt den Grundstein für ein inklusiveres und ethischeres KI-Ökosystem.

Schlussbemerkung

Meta's jüngste Veröffentlichungen sind ein bedeutender Schritt in Richtung einer verantwortungsvollen und innovativen Nutzung von Künstlicher Intelligenz. Durch die Bereitstellung fortschrittlicher Modelle wie JASCO und Tools wie AudioSeal sowie die Förderung der Zusammenarbeit in der Forschungsgemeinschaft zeigt Meta, wie technologische Fortschritte sinnvoll und ethisch genutzt werden können. Die nächsten Schritte in der KI-Forschung und -Anwendung könnten von diesen Entwicklungen stark beeinflusst werden, was spannende Möglichkeiten für die Zukunft eröffnet.

‍
Bibliographie:

‍
- https://www.musicbusinessworldwide.com/metas-new-generative-ai-model-can-take-chords-or-beats-and-turn-them-into-songs/
- https://venturebeat.com/ai/meta-releases-flurry-of-new-ai-models-for-audio-text-and-watermarking/
- https://www.globalvillagespace.com/tech/meta-fair-releases-new-ai-models-and-tools-for-audio-generation-text-to-vision-and-watermarking/

Was bedeutet das?