Sakana AI erzielt Durchbruch in der KI-Entwicklung mit evolutionärer Modellfusion

Kategorien:
No items found.
Freigegeben:
June 14, 2024

In der sich ständig weiterentwickelnden Welt der Künstlichen Intelligenz (KI) hat das japanische Unternehmen Sakana AI einen beachtlichen Durchbruch erzielt. Die Forscher des Unternehmens haben eine neue Methode zur automatisierten und fortschrittlichen Modellfusion entwickelt, die als Evolutionary Model Merge (EMM) bekannt ist. Diese Technik ermöglicht es, durch die Anwendung evolutionärer Algorithmen, verschiedene Open-Source-Modelle mit unterschiedlichen Fähigkeiten zu einem neuen Grundmodell zu verschmelzen.

Die Hauptprinzipien von Sakana AI basieren auf den natürlichen Mechanismen der Evolution und der kollektiven Intelligenz. Ihr Ziel ist es nicht nur, Modelle selbst zu trainieren und zu entwickeln, sondern auch, die Entwicklung von Grundmodellen effizienter, fortschrittlicher und automatisierter zu gestalten. Der erste Schritt in diese Richtung wurde mit der Veröffentlichung des Preprints "Evolutionary Optimization of Model Merging Recipes" unternommen. Die Kernpunkte des Preprints lassen sich wie folgt zusammenfassen:

- EMM ist ein Verfahren, das mithilfe evolutionärer Algorithmen eine Methode zur Entdeckung der Fusion verschiedener Open-Source-Modelle entwickelt, um neue Grundmodelle zu erstellen.
- Die bisherige Annahme, dass Bereiche wie "Nicht-Englische Sprachen und Mathematik" oder "Nicht-Englische Sprachen und Bilder" schwer zu fusionieren seien, wurde durch Sakana AIs Ansatz widerlegt. Die evolutionären Algorithmen ermöglichten es, auch für diese komplexen Verbindungen automatisierte Lösungen zu finden.

Um die Wirksamkeit ihres Ansatzes zu demonstrieren, hat Sakana AI experimentell drei Modelle entwickelt:

1. EvoLLM-JP: Ein großes japanisches Sprachmodell, das mathematische Schlussfolgerungen anstellen kann. Dieses durch EMM entwickelte Modell hat nicht nur in der Mathematik, sondern auch in der japanischen Sprache im Allgemeinen herausragende Fähigkeiten bewiesen.

2. EvoVLM-JP: Ein japanisches Bild-Sprachmodell, das in der Lage ist, Dialoge in japanischer Sprache zu führen. EvoVLM-JP, das ebenfalls durch EMM entwickelt wurde, kann Wissen über die japanische Kultur integrieren und erzielte in Benchmarks, die japanische Bilder und Texte verwendeten, die besten Ergebnisse.

3. EvoSDXL-JP: Ein schnelles japanisches Bildgenerierungsmodell. Die evolutionäre Modellfusion kann auch auf Bildgenerierungs-Diffusionsmodelle angewendet werden. EvoSDXL-JP, das derzeit entwickelt wird, kann Bilder in nur vier Schritten generieren.

Die hochleistungsfähigen japanischen Grundmodelle EvoLLM-JP und EvoVLM-JP, die durch evolutionäre Modellfusion entstanden sind, wurden auf GitHub veröffentlicht. Sakana AI hofft, durch die Nutzung der Prinzipien der Natur die Entwicklung von Grundmodellen weiter voranzutreiben. Darüber hinaus steht eine Demo für EvoVLM-JP zur Verfügung, die sofort ausprobiert werden kann.

Die neue Methode von Sakana AI benötigt keine gradientenbasierten Trainingstechniken und kann neue Grundmodelle mit relativ wenigen Rechenressourcen und Daten automatisch generieren. Zwar ist es theoretisch möglich, die Modelle durch zusätzliche Anwendung von gradientenbasierten Methoden weiter zu verbessern, jedoch zeigt die aktuelle Veröffentlichung, dass es möglich ist, fortschrittliche Grundmodelle evolutionär zu entwickeln, ohne auf teure und umfangreiche Trainingsmethoden zurückgreifen zu müssen.

Diese Forschungsergebnisse sind ein bedeutender Schritt nach vorne im Bereich der KI-Entwicklung und könnten die Art und Weise, wie wir Grundmodelle entwickeln und nutzen, grundlegend verändern. Sakana AI hat damit einen wichtigen Beitrag zur Weiterentwicklung der Künstlichen Intelligenz geleistet.

Quellen:
- Sakana AI Blog: https://sakana.ai/evolutionary-model-merge-jp/
- Weel Media: https://weel.co.jp/media/evolutionary-optimization-of-model-merging/
- Gigazine: https://gigazine.net/news/20240322-sakana-ai-evolutionary-model-merge/
- Twitter Sakana AI Labs: https://twitter.com/SakanaAILabs/status/1770990401736024136

Was bedeutet das?