KI Modelle und das Dilemma einfacher Logikfragen

Kategorien:

No items found.

Freigegeben:

June 14, 2024

Diese simple Logikfrage überfordert die besten KI-Modelle – kannst du sie lösen?

‍

Einführung

Künstliche Intelligenz (KI) hat in den letzten Jahren beeindruckende Fortschritte gemacht und viele Bereiche unseres Lebens revolutioniert. Dennoch gibt es immer wieder Fälle, in denen selbst die fortschrittlichsten KI-Modelle ihre Grenzen aufzeigen. Eine aktuelle Studie hat gezeigt, dass einige der besten KI-Sprachmodelle von einer einfachen Logikfrage überfordert sind. Diese Entdeckung wirft Fragen über die tatsächliche Intelligenz und Leistungsfähigkeit dieser Modelle auf.

Die Herausforderung: Das „Alice im Wunderland“-Problem

Die KI-Forschungsorganisation Laion hat eine besonders einfache Logikfrage verwendet, um die Fähigkeiten verschiedener KI-Modelle zu testen. Diese Frage, bekannt als das „Alice im Wunderland“-Problem, lautet: „Alice hat [X] Brüder und [Y] Schwestern. Wie viele Schwestern hat Alices Bruder?“ Dabei wurden verschiedene Werte für X und Y eingesetzt, um die Antworten der KI-Modelle zu überprüfen.

Ein einfaches Beispiel

Um die Frage zu veranschaulichen, nehmen wir an, Alice hat zwei Brüder und drei Schwestern. Die Frage lautet dann: Wie viele Schwestern hat jeder der Brüder von Alice? Die Lösung ist einfach: vier. Denn Alice selbst ist ebenfalls eine Schwester ihrer Brüder. Man muss also bei jeder Variante der Frage einfach Alice als zusätzliche Schwester hinzurechnen.

Ergebnisse der Studie

Die Studie untersuchte verschiedene KI-Modelle, darunter OpenAIs GPT-3, GPT-4 und GPT-4o, Anthropics Claude 3 Opus, Googles Gemini sowie Metas Llama-Modelle. Dabei zeigte sich, dass alle diese Modelle Schwierigkeiten hatten, die richtige Lösung zu finden. Besonders überraschend war, dass die Modelle oft auf ihren falschen Antworten beharrten, auch wenn sie auf den korrekten Lösungsweg hingewiesen wurden.

Vertrauen in falsche Lösungen

Die Forscher:innen stellten fest, dass die Modelle ein starkes Übervertrauen in ihre falschen Lösungen zeigten und oft unsinnige Erklärungen lieferten, um die Richtigkeit ihrer offensichtlich falschen Antworten zu rechtfertigen. Diese Ergebnisse werfen Fragen über die Zuverlässigkeit und die tatsächliche Intelligenz dieser KI-Modelle auf.

Leistungsunterschiede zwischen den Modellen

Im Vergleich konnte lediglich das neue OpenAI-Modell GPT-4o eine befriedigende Erfolgsrate aufweisen: 65 Prozent. Claude 3 Opus antwortete dagegen in nur 43 Prozent der Fälle richtig, und Googles Gemini Pro erreichte sogar nur eine Erfolgsrate von 0,8 Prozent.

Ergebnisse eines Kurztests

In einem Kurztest zeigte sich, dass ChatGPT mit GPT-4o zwar im ersten Lösungsversuch falsch lag, sich jedoch auf Nachfrage davon überzeugen ließ, dass Alice als zusätzliche Schwester hinzuzurechnen sei. Googles Gemini gab im ersten Versuch die richtige Antwort, nachdem sich die KI während der Beantwortung selbst korrigierte.

Die Weiterentwicklung der KI-Modelle

Es sollte jedoch berücksichtigt werden, dass sich die KI-Modelle stetig weiterentwickeln. Die Laion-Studie ist bisher noch nicht von anderen Wissenschaftler:innen begutachtet worden (Peer-Review), und es ist möglich, dass Logikfragen wie das „Alice im Wunderland“-Problem bald kein Problem mehr für diese Modelle darstellen.

Zweifel an offiziellen Erfolgsraten

Es ist nicht das erste Mal, dass die von den KI-Firmen selbst angegebenen Erfolgsraten infrage gestellt werden. Laut Futurism liegen die Erfolgsraten bei Logikfragen zwischen 64 und 88 Prozent. Auch Untersuchungen anderer Forscher:innen, wie jene von Eric Martínez vom MIT, wecken Zweifel an den offiziell angegebenen KI-Benchmarks.

Fazit

Die Ergebnisse der Laion-Studie zeigen, dass selbst die fortschrittlichsten KI-Modelle immer noch erhebliche Schwächen in der Logik aufweisen. Dies wirft Fragen über die tatsächliche Intelligenz und die Zuverlässigkeit dieser Modelle auf. Es bleibt abzuwarten, wie sich die KI-Modelle in Zukunft weiterentwickeln und ob sie in der Lage sein werden, solche einfachen Logikfragen korrekt zu beantworten.

October 11, 2024

