Vergleich und Einsatzmöglichkeiten der neuen Sprachmodelle Athene-70B und Mistral-Nemo-12B

Kategorien:

No items found.

Freigegeben:

July 22, 2024

Neue Sprachmodelle Athene-70B und Mistral-Nemo-12B im Test

In der vergangenen Woche wurden zwei neue große Sprachmodelle (LLMs) veröffentlicht: Athene-70B von Nexusflow und Mistral-Nemo-12B, eine gemeinsame Entwicklung von MistralAI und NVIDIA. Diese Modelle wurden auf verschiedenen Benchmark-Tests wie ZeroEval, GSM, MMLU-Redux und ZebraLogic getestet. Beide Modelle zeigen unterschiedliche Stärken und Schwächen, die nachfolgend genauer beleuchtet werden.

Athene-70B: Feinabstimmung auf Llama-3-70B-Instruct

Das Athene-70B-Modell ist eine Weiterentwicklung des Llama-3-70B-Instruct-Modells und wurde durch Reinforcement Learning from Human Feedback (RLHF) optimiert. Es hat auf dem Arena-Hard-Auto-Benchmark, einem Proxy-Benchmark für Chatbot-Arenen, hohe Punktzahlen erreicht. Dennoch scheint das Modell bei spezifischen Aufgaben wie GSM (Generalized Skill Mastery) gewisse Schwächen zu haben.

Athene-70B zeigt eine bemerkenswerte Leistung in der Textgenerierung und im Umgang mit komplexen Anfragen. Es nutzt dieselbe Chat-Vorlage wie Llama-3-70B-Instruct und lässt sich leicht in bestehende Systeme integrieren.

Technische Details:

- Entwickelt von: Nexusflow Team - Modelltyp: Chat-Modell - Feinabgestimmt von: Llama-3-70B-Instruct - Quantisierung: 4-bit Präzision

Mistral-Nemo-12B: Zusammenarbeit zwischen MistralAI und NVIDIA

Das Mistral-Nemo-12B-Modell wurde in Zusammenarbeit mit NVIDIA entwickelt und zeichnet sich durch eine besonders große Kontextlänge von bis zu 128k Tokens aus. Es bietet eine herausragende Leistung in Bezug auf Argumentation, Weltwissen und Kodierungsgenauigkeit. Das Modell ist unter der Apache 2.0-Lizenz veröffentlicht und soll die Verbreitung in Forschung und Industrie fördern.

Besonders hervorzuheben ist der neue Tokenizer „Tekken“, der auf Tiktoken basiert und mehr als 100 Sprachen effizient komprimiert. Im Vergleich zu früheren Modellen ist Tekken etwa 30% effizienter bei der Komprimierung von Quellcode und verschiedenen Sprachen.

Technische Details:

- Entwickelt von: MistralAI und NVIDIA - Kontextlänge: 128k Tokens - Tokenizer: Tekken - Lizenz: Apache 2.0

Benchmark-Tests und Ergebnisse

Die Modelle wurden auf verschiedenen Benchmark-Tests wie ZeroEval, GSM, MMLU-Redux und ZebraLogic getestet. Während Athene-70B auf dem Arena-Hard-Auto-Benchmark beeindruckende Ergebnisse erzielte, zeigte es Schwächen bei GSM-Aufgaben. Mistral-Nemo-12B hingegen war nicht besonders stark bei den Benchmark-Tests, zeigte aber eine bessere Leistung auf dem WildBench-Test, der herausfordernde reale Benutzeraufgaben simuliert.

Benchmark-Tests:

- ZeroEval - GSM - MMLU-Redux - ZebraLogic - WildBench

Schlussfolgerung

Die neuen Sprachmodelle Athene-70B und Mistral-Nemo-12B bieten unterschiedliche Vorteile und sind für verschiedene Anwendungsbereiche optimiert. Während Athene-70B sich durch hohe Punktzahlen bei Chatbot-Benchmarks auszeichnet, überzeugt Mistral-Nemo-12B durch seine große Kontextlänge und effiziente Sprachkomprimierung. Beide Modelle tragen zur Weiterentwicklung der KI-Technologie bei und bieten interessante Möglichkeiten für Forschung und Industrie.

Quellen

- https://github.com/yuchenlin/ZeroEval - https://hf.co/spaces/allenai/WildBench - https://nexusflow.ai/blogs/athene - https://x.com/en/privacy - https://ai.nvidia.com

Was bedeutet das?