Neues Open-Source-Modell Aria: Multimodale KI aus Japan im Fokus

Kategorien:
No items found.
Freigegeben:
October 10, 2024

Die japanische Multimodal-KI Aria: Open Source und leistungsstark

Das japanische Start-up Rhymes AI hat mit Aria sein erstes KI-Modell als Open-Source-Software veröffentlicht. Laut Unternehmensangaben ist Aria das weltweit erste quelloffene, multimodale Mixture-of-Experts-Modell (MoE).

Was bedeutet "multimodal"?

Ein multimodal natives Modell zeichnet sich laut Rhymes AI dadurch aus, dass es die Verständnisfähigkeiten von spezialisierten Modellen mit vergleichbarer Kapazität über mehrere Eingangsmodalitäten wie Text, Code, Bild und Video hinweg erreicht oder übertrifft.

MoE-Modelle: Effizienz durch Spezialisierung

MoE-Modelle ersetzen die Feedforward-Schichten eines Transformators durch mehrere spezialisierte Experten. Für jedes Eingabetoken wählt ein Router-Modul eine Teilmenge der Experten aus, wodurch die Anzahl der aktiven Parameter pro Token reduziert und die Recheneffizienz erhöht wird. Bekannte Vertreter dieser Klasse sind Mixtral 8x7B und DeepSeek-V2. Vermutlich basiert auch GPT-4 auf dieser Architektur.

Arias Aufbau und Training

Der MoE-Decoder von Aria aktiviert 3,5 Milliarden Parameter pro Text-Token und verfügt über insgesamt 24,9 Milliarden Parameter. Ein leichtgewichtiger visueller Encoder mit 438 Millionen Parametern wandelt visuelle Eingaben mit variabler Länge, Größe und Seitenverhältnis in visuelle Token um. Aria verfügt über ein multimodales Kontextfenster von 64.000 Token.

Rhymes AI hat Aria in vier Phasen vortrainiert: zunächst nur mit Textdaten, dann mit einer Mischung aus Text- und multimodalen Daten, gefolgt von einem Training mit langen Sequenzen und schließlich mit einem abschließenden Finetuning.

Insgesamt wurde Aria mit 6,4 Billionen Text-Token und 400 Milliarden multimodalen Token vortrainiert. Das Material stammt unter anderem aus den bekannten Datensätzen von Common Crawl und LAION und wurde teilweise synthetisch angereichert.

Leistung im Vergleich: Aria behauptet sich

Im Vergleich zu Modellen wie Pixtral-12B und Llama-3.2-11B zeigt Aria laut Benchmarks eine überlegene Leistung bei einer Vielzahl von multimodalen, sprachlichen und Programmieraufgaben, und das bei geringeren Inferenzkosten aufgrund der geringeren Anzahl aktivierter Parameter. Darüber hinaus soll Aria auch in der Lage sein, bei verschiedenen multimodalen Aufgaben mit proprietären Modellen wie GPT-4o und Gemini-1.5 mitzuhalten.

Lange Sequenzen: Arias Stärke

Laut Rhymes AI erzielt Aria auch bei langen multimodalen Eingaben wie Videos mit Untertiteln oder mehrseitigen Dokumenten gute Ergebnisse. Im Gegensatz zu anderen Open-Source-Modellen soll Aria lange Videos besser verstehen als GPT-4o mini und lange Dokumente besser als Gemini 1.5 Flash.

Open Source und Zusammenarbeit mit AMD

Rhymes AI hat den Quellcode von Aria unter der Apache-2.0-Lizenz auf GitHub zur Verfügung gestellt, die sowohl die akademische als auch die kommerzielle Nutzung erlaubt. Um die Adaption zu erleichtern, hat das Unternehmen auch ein Trainingsframework veröffentlicht, mit dem Aria mit nur einer GPU auf eine Vielzahl von Datenquellen und -formaten feinabgestimmt werden kann.

Rhymes AI wurde von ehemaligen Google-AI-Experten gegründet. Ähnlich wie bei einigen anderen aufstrebenden KI-Unternehmen ist es das Ziel, leistungsstarke Modelle zu entwickeln, die für alle zugänglich sind. Das Unternehmen hat 30 Millionen US-Dollar an Startkapital erhalten.

Um die Leistung seiner Modelle durch den Einsatz von AMD-Hardware zu optimieren, ist Rhymes AI eine Partnerschaft mit dem Chiphersteller eingegangen. Auf der AMD-Konferenz "Advancing AI 2024" stellte Rhymes AI seine für Konsumenten entwickelte Suchanwendung BeaGo vor, die auf dem MI300X-Beschleuniger von AMD läuft und laut Rhymes AI umfassende KI-Suchergebnisse für Text und Bilder liefert.

BeaGo: KI-gestützte Suche für jedermann

In einem Video vergleicht sich BeaGo mit Perplexity und Gemini. Die App, die derzeit kostenlos für iOS und Android verfügbar ist, unterstützt neben der Suchmaschinenanbindung offenbar nur Texteingaben und englische Spracheingaben. Außerdem schlägt sie KI-Zusammenfassungen aktueller Nachrichten und Links zu verschiedenen Online-Artikeln vor.

Mit der Veröffentlichung von Aria als Open Source und der Zusammenarbeit mit AMD unterstreicht Rhymes AI sein Engagement für einen demokratischen Zugang zu leistungsstarker KI-Technologie. Es bleibt abzuwarten, welche Anwendungen auf Basis von Aria entstehen und wie sich das Modell in Zukunft weiterentwickelt.

Quellen

http://arxiv.org/abs/2410.05993 https://medium.com/@researchgraph/molmo-ai-revolutionising-open-source-multimodal-intelligence-f6bb9489f6d3 https://www.wired.com/story/molmo-open-source-multimodal-ai-model-allen-institute-agents/ https://techcrunch.com/2024/09/25/ai2s-molmo-shows-open-source-can-meet-and-beat-closed-multimodal-models/ https://www.technologyreview.com/2024/09/25/1104465/a-tiny-new-open-source-ai-model-performs-as-well-as-powerful-big-ones/ https://www.zdnet.com/article/chatgpt-vs-microsoft-copilot-vs-gemini-which-is-the-best-ai-chatbot/ https://www.gov.uk/government/publications/international-scientific-report-on-the-safety-of-advanced-ai/international-scientific-report-on-the-safety-of-advanced-ai-interim-report https://www.youtube.com/watch?v=7EJ2iUv2_O0 https://ar5iv.labs.arxiv.org/abs/2311.18259 https://venturebeat.com/ai/salesforce-releases-xgen-mm-open-source-multimodal-ai-models-to-advance-visual-language-understanding/
Was bedeutet das?