Apples Forschung hinterfragt die logischen Fähigkeiten moderner KI-Modelle

Kategorien:

No items found.

Freigegeben:

October 13, 2024

Artikel jetzt als Podcast anhören

Apples KI-Forscher hinterfragen OpenAIs Behauptungen über die Denkfähigkeiten von o1

Eine neue Studie von Apple-Forschern, darunter der renommierte KI-Wissenschaftler Samy Bengio, stellt die logischen Fähigkeiten der heutigen großen Sprachmodelle - selbst von OpenAIs neuem "Reasoning Model" o1 - in Frage.

Ein neuer Bewertungsmaßstab

Das Team unter der Leitung von Mehrdad Farajtabar entwickelte zwei neue Bewertungstools namens GSM-Symbolic und GSM-NoOp. Diese Tools bauen auf dem mathematischen Argumentationsdatensatz GSM8K auf und fügen symbolische Vorlagen hinzu, um KI-Modelle gründlicher zu testen.

Die Forscher testeten Open-Source-Modelle wie Llama, Phi, Gemma und Mistral sowie proprietäre Modelle, darunter die neuesten Angebote von OpenAI. Die Ergebnisse, die auf arXiv veröffentlicht wurden, deuten darauf hin, dass selbst führende Modelle wie GPT-4o und o1 von OpenAI keine wirkliche Logik verwenden, sondern lediglich Muster nachahmen.

Das Hinzufügen irrelevanter Informationen verringert die Leistung

Die Ergebnisse zeigen, dass die aktuellen Genauigkeitswerte für GSM8K unzuverlässig sind. Die Forscher fanden große Leistungsunterschiede: Das Modell Llama-8B beispielsweise erreichte eine Bewertung zwischen 70 und 80 Prozent, während Phi-3 zwischen 75 und 90 Prozent schwankte. Bei den meisten Modellen war die durchschnittliche Leistung bei GSM-Symbolic geringer als beim ursprünglichen GSM8K, sagt Farajtabar.

Besonders aufschlussreich war das Experiment mit dem Datensatz GSM-NoOp. Hier fügten die Forscher einem Textproblem eine einzige Aussage hinzu, die zwar relevant erschien, aber nicht zum Gesamtausführungsgang beitrug.

Das Ergebnis war ein Leistungsrückgang bei allen Modellen, einschließlich der o1-Modelle von OpenAI. "Würde sich das Ergebnis eines Mathematikklassenarbeitstests eines Grundschülers um ~10 % ändern, wenn wir nur die Namen ändern würden?", fragt Farajtabar rhetorisch.

Farajtabar betont, dass das eigentliche Problem der dramatische Anstieg der Varianz und der Rückgang der Leistung ist, wenn der Schwierigkeitsgrad der Aufgabe nur geringfügig steigt. Um mit der Varianz bei steigendem Schwierigkeitsgrad umgehen zu können, werden wahrscheinlich "exponentiell mehr Daten" benötigt.

Skalierung würde nur zu besseren Musterabgleichern führen

Die OpenAI o1-Serie, die bei vielen Benchmarks Spitzenwerte erzielt, schneidet zwar besser ab, leidet aber immer noch unter Leistungsschwankungen und macht "dumme Fehler", was laut den Forschern die gleichen grundlegenden Schwächen zeigt. Diese Erkenntnis wird durch eine andere kürzlich veröffentlichte Studie gestützt.

"Insgesamt fanden wir keine Hinweise auf formales Denken in den Sprachmodellen", folgert Farajtabar. "Ihr Verhalten lässt sich besser durch ausgeklügeltes Pattern Matching erklären." Die Skalierung von Daten, Parametern und Rechenleistung würde zu besseren Musterabgleichern, aber "nicht unbedingt zu besseren Denkmaschinen" führen.

Jenseits der Mustererkennung

Die Apple-Forscher betonen, dass das Verständnis der wahren Denkfähigkeiten von LLMs entscheidend für ihren Einsatz in realen Szenarien ist, in denen Genauigkeit und Konsistenz unerlässlich sind - insbesondere in den Bereichen KI-Sicherheit, Abstimmung, Bildung, Gesundheitswesen und Entscheidungssysteme.

"Wir glauben, dass weitere Forschung unerlässlich ist, um KI-Modelle zu entwickeln, die zu formalem Denken fähig sind und über die Mustererkennung hinausgehen, um robustere und besser verallgemeinerbare Problemlösungsfähigkeiten zu erreichen", so das Fazit der Studie. Dies ist eine zentrale Herausforderung auf dem Weg zu Systemen mit menschenähnlichen kognitiven Fähigkeiten oder allgemeiner Intelligenz.

Debatte in der KI-Forschung

Interessant an der Studie ist, dass zwei führende KI-Forschungseinrichtungen, Apple und OpenAI, gegensätzliche Positionen vertreten. OpenAI ist der Ansicht, dass o1 das erste Denkmodell (Stufe 2) ist, das den Grundstein für logische Agenten (Stufe 3) legt, die der nächste Wachstumsbereich für OpenAI sein sollen.

Abgeschwächt werden die Argumente der Apple-Forscher beispielsweise durch einen neuen OpenAI-Benchmark, der zeigt, dass o1 Aufgaben des maschinellen Lernens lösen kann. OpenAI gibt an, Testexemplare explizit aus den Trainingsdaten ausgeschlossen zu haben. Eine andere Studie kommt zu dem Schluss, dass KI-Modelle zumindest eine Art probabilistisches Denken durchführen.

Ein Grund für diese unterschiedlichen Einschätzungen mag sein, dass Begriffe wie Intelligenz, Denken und Logik unscharf sind, in Abstufungen und Graden auftreten können oder im Falle von maschineller Logik neue Formen annehmen können.

Letztlich wird die akademische Diskussion in den Hintergrund treten, wenn zukünftige KI-Modelle die ihnen gestellten Aufgaben zuverlässig lösen können - und genau das muss OpenAI mit seiner Bewertung von über 150 Milliarden Dollar beweisen.

Quellen

Arxiv
Farajtabar via X
Matthias Bastian
https://www.linkedin.com/posts/anthony-alcaraz-b80763155_why-openai-o1s-training-method-will-open-activity-7240081676117192705-xQGZ
https://finance.yahoo.com/news/openai-releases-ai-model-answers-175305123.html
https://www.ft.com/content/af6b293c-113d-4aac-b9d8-d4f65596f645
https://www.reddit.com/r/apple/comments/1ff9n98/apple_intelligence_is_going_to_blow_everyone_out/
https://www.pymnts.com/artificial-intelligence-2/2024/this-week-in-ai-openai-and-apple-roll-out-new-products/
https://techxplore.com/news/2024-09-openai-ai-eye-safety-accuracy.html
https://www.theguardian.com/technology/article/2024/aug/24/apple-intelligence-iphone-ios-18-siri-chat-gpt-launch
https://www.youtube.com/watch?v=j9vTEhimRqk
https://machinelearning.apple.com/research/introducing-apple-foundation-models

Was bedeutet das?