In der vergangenen Woche wurden zwei neue große Sprachmodelle (LLMs) veröffentlicht: Athene-70B von Nexusflow und Mistral-Nemo-12B, eine gemeinsame Entwicklung von MistralAI und NVIDIA. Diese Modelle wurden auf verschiedenen Benchmark-Tests wie ZeroEval, GSM, MMLU-Redux und ZebraLogic getestet. Beide Modelle zeigen unterschiedliche Stärken und Schwächen, die nachfolgend genauer beleuchtet werden.
Das Athene-70B-Modell ist eine Weiterentwicklung des Llama-3-70B-Instruct-Modells und wurde durch Reinforcement Learning from Human Feedback (RLHF) optimiert. Es hat auf dem Arena-Hard-Auto-Benchmark, einem Proxy-Benchmark für Chatbot-Arenen, hohe Punktzahlen erreicht. Dennoch scheint das Modell bei spezifischen Aufgaben wie GSM (Generalized Skill Mastery) gewisse Schwächen zu haben.
Athene-70B zeigt eine bemerkenswerte Leistung in der Textgenerierung und im Umgang mit komplexen Anfragen. Es nutzt dieselbe Chat-Vorlage wie Llama-3-70B-Instruct und lässt sich leicht in bestehende Systeme integrieren.
Das Mistral-Nemo-12B-Modell wurde in Zusammenarbeit mit NVIDIA entwickelt und zeichnet sich durch eine besonders große Kontextlänge von bis zu 128k Tokens aus. Es bietet eine herausragende Leistung in Bezug auf Argumentation, Weltwissen und Kodierungsgenauigkeit. Das Modell ist unter der Apache 2.0-Lizenz veröffentlicht und soll die Verbreitung in Forschung und Industrie fördern.
Besonders hervorzuheben ist der neue Tokenizer „Tekken“, der auf Tiktoken basiert und mehr als 100 Sprachen effizient komprimiert. Im Vergleich zu früheren Modellen ist Tekken etwa 30% effizienter bei der Komprimierung von Quellcode und verschiedenen Sprachen.
Die Modelle wurden auf verschiedenen Benchmark-Tests wie ZeroEval, GSM, MMLU-Redux und ZebraLogic getestet. Während Athene-70B auf dem Arena-Hard-Auto-Benchmark beeindruckende Ergebnisse erzielte, zeigte es Schwächen bei GSM-Aufgaben. Mistral-Nemo-12B hingegen war nicht besonders stark bei den Benchmark-Tests, zeigte aber eine bessere Leistung auf dem WildBench-Test, der herausfordernde reale Benutzeraufgaben simuliert.
Die neuen Sprachmodelle Athene-70B und Mistral-Nemo-12B bieten unterschiedliche Vorteile und sind für verschiedene Anwendungsbereiche optimiert. Während Athene-70B sich durch hohe Punktzahlen bei Chatbot-Benchmarks auszeichnet, überzeugt Mistral-Nemo-12B durch seine große Kontextlänge und effiziente Sprachkomprimierung. Beide Modelle tragen zur Weiterentwicklung der KI-Technologie bei und bieten interessante Möglichkeiten für Forschung und Industrie.