Große Sprachmodelle (LLMs) wie GPT-4, PaLM und LLaMA haben in verschiedenen Argumentationsaufgaben erhebliche Fortschritte gezeigt. Kleinere Modelle wie Llama-3-8B und DeepSeekMath-Base haben jedoch immer noch mit komplexen mathematischen Argumentationen zu kämpfen, da sie Argumentationsfehler nicht effektiv erkennen und korrigieren können. Neuere reflexionsbasierte Methoden zielen darauf ab, diese Probleme anzugehen, indem sie Selbstreflexion und Selbstkorrektur ermöglichen, aber sie stehen immer noch vor Herausforderungen bei der unabhängigen Erkennung von Fehlern in ihren Argumentationsschritten.
Kleinere Sprachmodelle haben oft Schwierigkeiten, komplexe Argumentationen in Bereichen wie Mathematik durchzuführen. Sie scheitern daran, Fehler in ihren eigenen Gedankengängen zu erkennen und zu korrigieren. Dies liegt daran, dass ihnen die Fähigkeit zur tiefen Selbstreflexion fehlt, die größere Modelle besitzen.
Um diese Einschränkungen zu überwinden, schlagen Forscher das Modell „SuperCorrect“ vor, ein neuartiges zweistufiges Framework, das ein großes Lehrermodell verwendet, um sowohl die Argumentations- als auch die Reflexionsprozesse eines kleineren Schülermodells zu überwachen und zu korrigieren.
In der ersten Stufe werden hierarchische übergeordnete und detaillierte Gedankenvorlagen aus dem Lehrermodell extrahiert. Diese Vorlagen dienen dazu, das Schülermodell bei der Entwicklung genauerer Argumentationsschritte zu unterstützen.
In der zweiten Stufe kommt die „Cross-Model Collaborative Direct Preference Optimization (DPO)“ zum Einsatz. Dieser Ansatz zielt darauf ab, die Selbstkorrekturfähigkeiten des Schülermodells zu verbessern, indem es die Korrekturmuster des Lehrermodells während des Trainings verfolgt.
Durch die Kombination von Gedankenvorlagen und DPO lernt das Schülermodell, Fehler in seinen Argumentationen effektiv zu lokalisieren und zu beheben. Es nutzt die fehlergesteuerten Einsichten des Lehrermodells, überwindet Engpässe in seinen Denkprozessen und erwirbt neue Fähigkeiten und Kenntnisse zur Lösung komplexer Probleme.
Umfangreiche Experimente zeigen, dass SuperCorrect die Leistung kleinerer Sprachmodelle in Bezug auf Argumentation und Selbstkorrektur erheblich verbessert. Insbesondere übertrifft das SuperCorrect-7B-Modell das leistungsstarke DeepSeekMath-7B um 7,8 %/5,3 % und das Qwen2.5-Math-7B um 15,1 %/6,3 % auf den MATH/GSM8K-Benchmarks und erzielt damit eine neue SOTA-Performance unter allen 7B-Modellen.
SuperCorrect stellt einen wichtigen Fortschritt in der Entwicklung von Sprachmodellen dar, indem es die Argumentations- und Selbstkorrekturfähigkeiten kleinerer Modelle durch die Anleitung eines größeren Lehrermodells verbessert. Dieser Ansatz ebnet den Weg für die Entwicklung robusterer und zuverlässigerer LLMs, die in der Lage sind, komplexere Argumentationsaufgaben zu lösen.