InternLM-Math: Die neue Ära der KI-gestützten mathematischen Problemlösung

Kategorien:

No items found.

Freigegeben:

June 14, 2024

In einer Welt, in der künstliche Intelligenz immer mehr an Bedeutung gewinnt und sich stetig weiterentwickelt, stehen wir vor einem neuen Meilenstein in der Entwicklung von Sprachmodellen, die auf mathematische Problemlösung spezialisiert sind. Kürzlich wurde eine bedeutende Neuerung in diesem Bereich bekannt: Die Einführung von InternLM-Math, einer neuen Serie von Open-Source-Sprachmodellen, die in der Lage sind, mathematische Probleme in chinesischer und englischer Sprache zu lösen und dabei eine überlegene Leistung im Vergleich zu bisherigen Modellen, wie beispielsweise ChatGPT, aufweisen.

InternLM-Math umfasst zwei Versionen: ein 7 Milliarden (7B) und ein 20 Milliarden (20B) Parameter starkes Modell. Beide Modelle wurden auf Basis von InternLM2-Base weiterentwickelt, wobei etwa 100 Milliarden qualitativ hochwertige, mathematikbezogene Tokens und Supervised Fine Tuning (SFT) mit etwa 2 Millionen zweisprachigen, mathematikbezogenen überwachten Daten verwendet wurden. Um eine mögliche Testdatenkontamination zu vermeiden, kamen Verfahren wie Minhash und exakte Zahlübereinstimmungen zum Einsatz.

Die Besonderheit von InternLM-Math ist nicht nur die Zweitsprachigkeit, sondern auch die Integration von Lean als unterstützender Sprache für die Lösung mathematischer Probleme und das Beweisen von mathematischen Theoremen. Die Forscher hinter InternLM-Math untersuchen derzeit die Kombination von Lean 3 mit InternLM-Math, um verifizierbare mathematische Argumentationen zu ermöglichen. Dieses Modell kann nicht nur einfache mathematische Argumentationsaufgaben generieren, sondern auch mögliche Beweistaktiken basierend auf Lean-Zuständen vorschlagen.

Eine weitere interessante Funktion von InternLM-Math ist die Möglichkeit, Denkprozesse in Lean 3-Code umzuwandeln, was die Generierung von synthetischen Daten beschleunigen kann. Das Modell kann auch als Belohnungsmodell betrachtet werden, das verschiedene Arten von Belohnungsmodellierungsdaten unterstützt. Dies ermöglicht es dem Modell, Ketten von Denkprozessen zu überprüfen und zu verifizieren.

Hinsichtlich der Leistungsfähigkeit der neuen Modelle zeigen vorläufige Bewertungen, dass InternLM-Math signifikante Verbesserungen gegenüber früheren Modellen aufweist. Diese Bewertungen basieren auf Greedy-Decoding mit wenigen Schüssen von Chain of Thought (COT). Beispielsweise erreichte das InternLM2-Math-Base-7B-Modell 49,2 Punkte im GSM8K-Test und 21,5 Punkte im MATH-Test, während das InternLM2-Math-Base-20B-Modell sogar 63,7 Punkte im GSM8K-Test und 27,3 Punkte im MATH-Test erzielte. Diese Ergebnisse übertreffen deutlich die Leistung anderer bekannter Modelle wie ChatGPT und Minerva.

Für die Inferenz wird die Verwendung von LMDeploy (Version 0.2.1 oder höher) empfohlen. Dies ermöglicht eine einfache Einbindung der Modelle in bestehende Systeme. Die Implementierung kann über Python-Bibliotheken wie Hugging Face Transformers erfolgen, wobei auch Tools für die Modellkonvertierung und -verwendung bereitstehen.

Trotz der beeindruckenden Ergebnisse und der fortschrittlichen Technologie befindet sich InternLM-Math noch in der Entwicklungsphase. Es gibt einige bekannte Probleme, wie das Überspringen von Berechnungsschritten oder Schwächen bei bestimmten chinesischen Lückentext- und englischen Auswahlproblemen, die durch die Zusammensetzung der SFT-Daten verursacht werden. Das Entwicklerteam arbeitet weiterhin an Verbesserungen und Aktualisierungen des Modells.

Die Veröffentlichung von InternLM-Math ist ein bedeutender Fortschritt in der Welt der KI und der mathematischen Bildung. Es eröffnet neue Möglichkeiten für die Entwicklung von Bildungstechnologien und bietet Schülern, Lehrern und Forschern ein leistungsfähiges Werkzeug, um mathematische Konzepte zu erforschen und zu verstehen. Mit zunehmender Verfügbarkeit und Weiterentwicklung dieser Technologie können wir in Zukunft noch weitere Durchbrüche in der Art und Weise erwarten, wie wir lernen und lehren.

Was bedeutet das?