Grenzen aktueller KI-Modelle im Test zur Künstlichen Allgemeinen Intelligenz

Kategorien:
No items found.
Freigegeben:
March 26, 2025

Artikel jetzt als Podcast anhören

Künstliche Allgemeine Intelligenz: Ein neuer Test zeigt die Grenzen aktueller KI-Modelle

Der Begriff der Künstlichen Allgemeinen Intelligenz (AGI) fasziniert und beunruhigt gleichermaßen. Doch wie weit ist die Forschung tatsächlich von diesem Ziel entfernt? Ein neuer Benchmark-Test, der sogenannte "Arc-AGI-2"-Test, liefert ernüchternde Ergebnisse und verdeutlicht die noch bestehenden Intelligenzlücken aktueller KI-Systeme.

Arc-AGI-2: Ein anspruchsvoller Test für künstliche Intelligenz

Entwickelt wurde der Test von der Arc Prize Foundation, einer Non-Profit-Organisation, die vom KI-Forscher François Chollet mitgegründet wurde. Der Test besteht aus einer Reihe von komplexen Rätseln, die auf visuellen Mustern basieren. Die KI-Modelle müssen in farbigen Quadratrastern Muster erkennen und das korrekte Antwortgitter generieren. Die Aufgaben sind so konzipiert, dass sie die Fähigkeit der KI zur Problemlösung in unbekannten Szenarien prüfen. Es geht darum, festzustellen, ob ein KI-Modell in der Lage ist, über das Gelernte hinauszugehen und neue Fähigkeiten zu entwickeln – ein Kernmerkmal von AGI.

Die Ergebnisse: Menschliche Intelligenz noch deutlich überlegen

Die Ergebnisse des Arc-AGI-2-Tests zeigen, dass aktuelle KI-Modelle, selbst die fortschrittlichsten, den Anforderungen von AGI noch nicht gerecht werden. Reasoning-Modelle wie o1-pro von OpenAI und R1 von Deepseek erreichten lediglich Werte zwischen einem und 1,3 Prozent. Auch andere leistungsstarke Modelle wie GPT-4.5, Claude 3.7 Sonnet und Gemini 2.0 Flash schnitten mit rund einem Prozent nicht wesentlich besser ab. Im Vergleich dazu erzielten menschliche Teilnehmer im Durchschnitt eine Erfolgsquote von 60 Prozent und demonstrierten damit eine deutlich höhere Problemlösekompetenz.

Die Bedeutung von Effizienz im Kontext von AGI

Der Vorgängertest, Arc-AGI-1, wurde bereits 2019 eingeführt und diente als Grundlage für die Bewertung des Fortschritts im Bereich AGI. Experten kritisierten jedoch, dass der Test nicht ausreichend differenziert und KI-Modelle die Aufgaben durch hohe Rechenleistung lösen konnten, ohne tatsächlich über generalisierende Fähigkeiten zu verfügen. Um diesem Problem zu begegnen, wurde im Arc-AGI-2-Test der Faktor Effizienz eingeführt. Die Ergebnisse zeigen, dass gerade in diesem Bereich erhebliche Schwächen bestehen. So erreichte das OpenAI-Modell o3-low im Arc-AGI-1-Test mit einem Rechenaufwand von rund 200 US-Dollar pro Aufgabe mehr als 75 Prozent. Im neuen Test hingegen erzielte es mit dem gleichen Rechenaufwand nur vier Prozent.

Der Weg zur AGI: Ein Wettbewerb für Innovation

Die Arc Prize Foundation hat einen Wettbewerb ins Leben gerufen, der Entwickler dazu anregen soll, die Grenzen der aktuellen KI-Technologie zu überwinden. Das Ziel ist es, im Arc-AGI-2-Test eine Genauigkeit von 85 Prozent zu erreichen und dabei die Kosten auf 0,42 Dollar pro Aufgabe zu begrenzen. Die Ergebnisse des aktuellen Tests verdeutlichen, dass noch ein langer Weg vor uns liegt, bis KI-Systeme die Fähigkeiten menschlicher Intelligenz erreichen. Der Wettbewerb soll dazu beitragen, Innovationen im Bereich AGI zu fördern und die Entwicklung leistungsfähigerer und effizienterer KI-Modelle zu beschleunigen.

Bibliographie: https://t3n.de/news/von-wegen-intelligent-diesen-neuen-agi-test-besteht-kaum-eine-ki-1679848/ https://t3n.de/tag/kuenstliche-intelligenz/ https://x.com/t3n/status/1904523951612588043 https://www.threads.net/@t3n_magazin/post/DHn8G4OIBS_ https://t3n.de/ https://newstral.com/de/article/de/1264882498/von-wegen-intelligent-diesen-neuen-agi-test-besteht-kaum-eine-ki https://t3n.de/news/aktuelle-ki-modelle-agi-experten-skepsis-1678953/ https://de-de.facebook.com/t3nMagazin/ https://t3n.de/news/ https://www.threads.net/@winfuture.de/post/DHnvsHMtvNM
Was bedeutet das?

Wie können wir Ihnen heute helfen?

Das Expertenteam von Mindverse freut sich darauf, Ihnen zu helfen.