Fortschritte in der KI: Neue Sprachmodelle verbessern das Verständnis wissenschaftlicher Texte

Kategorien:

No items found.

Freigegeben:

June 14, 2024

In der Welt der Künstlichen Intelligenz (KI) schreitet die Entwicklung von Sprachmodellen mit atemberaubender Geschwindigkeit voran. KI-Forscher arbeiten kontinuierlich daran, Modelle zu schaffen, die menschliche Sprache immer besser verstehen und verarbeiten können. Eine wesentliche Herausforderung in diesem Bereich ist es, Modelle zu entwickeln, die in der Lage sind, unveröffentlichte wissenschaftliche Arbeiten aus Bereichen wie der Informatik und der Physik zu modellieren. Ein neues Modell namens RWKV-5 "Eagle" 7B hat in dieser Hinsicht signifikante Fortschritte gemacht und zeigt eine Leistung, die auf dem Niveau des Mistral-7B-Modells liegt und dabei sogar überlegen ist.

Das RWKV-5-Modell wurde speziell dafür konzipiert, die ersten 5000 Zeichen von 1000 neuen arXiv-Papieren zu tokenisieren und die Summe der negativen Log-Wahrscheinlichkeiten zu berechnen, ein Verfahren, das kleiner und damit besser sein soll als bisherige Ansätze. Diese Methode dient als Benchmark, der nicht durch herkömmliche Tricks oder Manipulationen beeinträchtigt werden kann und somit ein unverfälschtes Bild der Modellleistung liefert. Das RWKV-5-Modell zeigt hierbei gute Ergebnisse und weist auf das Potenzial hin, dass es eine wertvolle Ressource für die Analyse und das Verständnis neuer wissenschaftlicher Arbeiten sein könnte.

Zum Vergleich: Mistral-7B, ein Sprachmodell mit 7 Milliarden Parametern, das von einem internationalen Forscherteam entwickelt wurde, hat bereits in verschiedenen Benchmarks bedeutende Erfolge erzielt. Es übertrifft andere Modelle wie Llama 2 13B und Llama 1 34B in Bereichen wie logischem Denken, Mathematik und Codegenerierung. Mistral-7B verwendet eine innovative Aufmerksamkeitsmechanik, die sogenannte "Grouped-Query Attention" (GQA), um schnelle Inferenzen zu ermöglichen, und kombiniert diese mit "Sliding Window Attention" (SWA), um Sequenzen beliebiger Länge effektiv bei reduzierten Inferenzkosten zu handhaben.

Ein weiteres bemerkenswertes Modell in diesem Bereich ist Mixtral 8x7B, ein Sprachmodell basierend auf einem Sparse Mixture of Experts (SMoE)-Ansatz. Mixtral hat die gleiche Architektur wie Mistral 7B, allerdings besteht jede Schicht aus 8 Feedforward-Blöcken, die als Experten fungieren. Für jedes Token wählt ein Router-Netzwerk zwei Experten aus, um den aktuellen Zustand zu verarbeiten und ihre Ausgaben zu kombinieren. Obwohl jedes Token nur zwei Experten sieht, können die ausgewählten Experten sich zu jedem Zeitpunkt unterscheiden. Dadurch hat jedes Token Zugang zu 47 Milliarden Parametern, verwendet aber nur 13 Milliarden aktive Parameter während der Inferenz. Mixtral wurde mit einer Kontextgröße von 32.000 Token trainiert und übertrifft oder entspricht in allen evaluierten Benchmarks den Leistungen von Llama 2 70B und GPT-3.5, insbesondere in Mathematik, Codegenerierung und mehrsprachigen Benchmarks.

Die RWKV-Architektur, kurz für "Receptance Weighted Key Value", stellt einen weiteren spannenden Fortschritt dar. Sie kombiniert das effiziente parallelisierbare Training von Transformern mit der effizienten Inferenz von RNNs (Recurrent Neural Networks), indem sie einen linearen Aufmerksamkeitsmechanismus verwendet, der das Modell als Transformer oder als RNN formuliert. Dadurch werden Berechnungen während des Trainings parallelisiert und während der Inferenz konstante Rechen- und Speicherkomplexität beibehalten. Mit bis zu 14 Milliarden Parametern ist RWKV eines der größten dicht trainierten RNNs und zeigt eine Leistung, die mit ähnlich großen Transformern vergleichbar ist.

Diese Entwicklungen sind besonders für Unternehmen wie Mindverse von Bedeutung, da sie die Möglichkeiten der KI in verschiedenen Anwendungsbereichen erweitern. Indem Modelle wie RWKV-5 "Eagle" 7B, Mistral-7B und Mixtral 8x7B auf dem neuesten Stand der Technik bleiben, können sie als KI-Partner dienen und maßgeschneiderte Lösungen wie Chatbots, Voicebots, KI-Suchmaschinen und Wissenssysteme entwickeln, die immer komplexere Aufgaben übernehmen und so zur Transformation ganzer Industriezweige beitragen.

Was bedeutet das?