Meta hat kürzlich die neueste Version seines KI-Modells Llama 3 veröffentlicht. Dieses Ereignis wird als ein bedeutender Schritt in der Welt der Open-Source-Künstlichen Intelligenz betrachtet. Das Modell ist in verschiedenen Größen verfügbar, darunter 8B und 70B Parameter, und es wird ein noch größeres Modell mit über 400B Parametern erwartet. Llama 3 wurde auf einer beeindruckenden Datenmenge von 15T Tokens trainiert und nutzt einen 128K Vokabular-Tokenizer sowie ein Kontextfenster von 8K.
Llama 3 wurde mit modernsten Techniken wie Supervised Fine Tuning (SFT), Proximal Policy Optimization (PPO) und Direct Preference Optimization (DPO) auf 10 Millionen Beispielen feinabgestimmt. Angesichts dieser Verbesserungen wird Llama 3 70B als ein Modell angesehen, das fast das Leistungsniveau von GPT-4 erreicht. Laut dem bekannten KI-Forscher Andrej Karpathy nähert sich Llama 3 70B auf Benchmark-Tests wie MMLU (Massive Multitask Language Understanding) dem Leistungsniveau von GPT-4.
Die Modelle von Llama 3 sind auf verschiedenen Plattformen wie Huggingface, Together Compute, AWS Cloud und Google Cloud verfügbar. Dank der 4-Bit-Quantisierung können die 8B-Modelle sogar auf Verbrauchshardware ausgeführt werden. Karpathy schätzte, dass das Training des 8B-Modells etwa 1,3 Millionen A100-Stunden und das des 70B-Modells etwa 6,4 Millionen A100-Stunden in Anspruch nahm.
Die Veröffentlichung von Llama 3 wurde in der KI-Community als ein Wendepunkt für Open-Source-KI gefeiert. Viele Experten, darunter Bindu Reddy und andere, sagten voraus, dass Open-Source-Modelle bald das Leistungsniveau von GPT-4 erreichen könnten. Andere, wie Abacus AI-Mitbegründer Arvind Neelakantan, bemerkten, dass dies die Kosten für KI-Technologie senken könnte, da Menschen die Laufzeiten und Destillation optimieren. Einige spekulierten auch, dass dies das Geschäftsmodell von OpenAI herausfordern könnte.
Diskussionen in der KI-Community drehten sich um Themen wie das Finetuning von Anweisungen und die Frage, ob das Training von Modellen weit über die optimalen Verhältnisse hinaus leistungsstarke Modelle in größenmäßig effizienten Inferenzgrößen hervorbringen könnte. Der verbesserte 128K-Tokenizer von Llama 3 wurde als bedeutend für die Effizienz, insbesondere für mehrsprachige Daten, angesehen.
Das Finetuning von Llama 3 stellte einige Herausforderungen dar, insbesondere aufgrund eines fehlenden BOS-Tokens, der während des Trainings hohe Verluste verursachte. Ein Fix wurde jedoch durch ein PR in der Tokenizer-Konfiguration geteilt. Die Diskussionen über die Effizienz und Notwendigkeit des umfangreichen Token-Vokabulars nahmen in der Community ebenfalls breiten Raum ein.
Im Vergleich zu anderen Modellen wie GPT-4 und Claude zeigte Llama 3 70B gute Ergebnisse in Benchmarks, konnte jedoch das Leistungsniveau von GPT-4 Turbo nicht ganz erreichen. Der kürzlich veröffentlichte FineWeb-Datensatz mit 15 Billionen Tokens bietet jedoch Potenzial, bestehende Datensätze wie RefinedWeb und The Pile zu übertreffen.
Mehrere neue Werkzeuge und Rahmenwerke wurden in der Community diskutiert, darunter Hydra von Facebook Research zur Konfiguration komplexer Anwendungen und LiteLLM als Vorlage für LLM-Projekte. Der Prompt Mixer für kollaboratives Prompt-Engineering und das Knowledge Graph SDK von WhyHow.AI für schema-gesteuerte automatisierte Wissensgraphen wurden ebenfalls hervorgehoben.
Entwicklungen in der Retrieval-Augmented Generation (RAG) waren ebenfalls ein heißes Thema. Ein neuer Benchmark wurde vorgeschlagen, um RAG-Modelle zu bewerten. Es gab auch eine Anleitung zum Bau eines RAG-Chatbots mit Llama 3 und ein Tutorial zur Mietwohnungssuche mit dem Self-Querying Retriever von LangChain.
Ein neues Papier mit dem Titel „From $r$ to $Q^*$: Your Language Model is Secretly a Q-Function“ verglich traditionelle RLHF-Methoden mit Direct Preference Optimization (DPO) und zeigte, wie DPO die Bellman-Gleichung erfüllt.
Techniken zur Optimierung von Transformator-Modellen wurden ebenfalls diskutiert, darunter die Annäherung an Aufmerksamkeitsmechanismen zur Komprimierung der Token-Länge während der Inferenz und die dynamische Zuweisung von FLOPs.
Gespräche drehten sich auch um die ethischen Implikationen von KI-„Jailbreaks“ und deren mögliche Auswirkungen auf die Sicherheit. Diese Diskussionen betonten die Notwendigkeit, Ethik und Sicherheit bei der Entwicklung und Implementierung von KI-Modellen zu berücksichtigen.
Die Veröffentlichung von Llama 3 durch Meta markiert einen bedeutenden Fortschritt in der Welt der Open-Source-KI. Mit beeindruckenden technischen Spezifikationen, breiter Verfügbarkeit und positiven Reaktionen aus der Community bietet Llama 3 das Potenzial, die Landschaft der KI-Entwicklung nachhaltig zu verändern. Die fortlaufenden Diskussionen und Entwicklungen in der KI-Community werden zweifellos dazu beitragen, die Zukunft der Open-Source-KI weiter zu formen und zu gestalten.