GAIA und die Suche nach der wahren Künstlichen Allgemeinen Intelligenz

Kategorien:
No items found.
Freigegeben:

In der Welt der Künstlichen Intelligenz (KI) stellt die Entwicklung von Allgemeinen KI-Assistenten (General AI Assistants) eine der größten Herausforderungen dar. Ein Meilenstein auf diesem Weg ist das Vorantreiben von Benchmarks, die aufzeigen, wie gut eine KI in der Lage ist, Probleme zu lösen, die für den Menschen einfach erscheinen, für Maschinen jedoch äußerst komplex sein können. Ein solcher Benchmark, der kürzlich für Aufsehen sorgte, ist GAIA – ein Benchmark für Allgemeine KI-Assistenten, entwickelt von einem internationalen Forscherteam.

GAIA – General AI Assistants – ist ein Benchmark, der realweltliche Fragen umfasst, die grundlegende Fähigkeiten wie Schlussfolgerung, Umgang mit Multimodalität, Internetsuche und im Allgemeinen eine gewisse Werkzeugkompetenz erfordern. So einfach die Fragen auch für Menschen erscheinen mögen, sie stellen die meisten fortgeschrittenen KIs vor große Herausforderungen. Während menschliche Befragte eine Treffsicherheit von 92 Prozent erreichen, liegt die von GPT-4 ausgestattete KI mit zusätzlichen Plugins lediglich bei 15 Prozent. Diese markante Leistungsdiskrepanz steht im Kontrast zum aktuellen Trend, bei dem Sprachmodelle (LLMs) Menschen bei Aufgaben übertreffen, die professionelle Fähigkeiten beispielsweise im Bereich Recht oder Chemie erfordern.

Das Forscherteam, zu dem Persönlichkeiten wie Yann LeCun und Thomas Wolf gehören, hat insgesamt 466 Fragen ausgearbeitet und deren Antworten veröffentlicht. Allerdings wurden die Antworten zu 300 dieser Fragen zurückgehalten, um eine Rangliste zu schaffen, die auf der Website von Hugging Face verfügbar ist.

Die Philosophie von GAIA weicht von der aktuellen Tendenz in KI-Benchmarks ab, die darauf ausgerichtet ist, Aufgaben zu finden, die für Menschen immer schwieriger werden. Die Entwickler von GAIA gehen davon aus, dass der Durchbruch zur Künstlichen Allgemeinen Intelligenz (AGI) von der Fähigkeit eines Systems abhängt, ähnliche Robustheit zu zeigen, wie es der Durchschnittsmensch bei solchen Fragen tut.

Die Herausforderung liegt hierbei in der Komplexität der Aufgaben, die die KI bewältigen muss. So könnten Fragen gestellt werden, die mehrere Schritte der Arbeit oder des „Denkens“ erfordern, wie zum Beispiel die Ermittlung von Nährwertangaben eines bestimmten Produktes im Vergleich zu USDA-Standards, basierend auf Informationen von Wikipedia.

Die Forscher testeten die KI-Produkte, mit denen sie arbeiten, und fanden heraus, dass keines von ihnen in der Lage war, den Benchmark zu bestehen. Dies legt nahe, dass die Branche möglicherweise nicht so nah an der Entwicklung einer wahren AGI ist, wie einige angenommen haben könnten.

Ein weiterer Aspekt, der bei der Bewertung von GAIA ins Auge fällt, ist das Bildungsniveau der Bewerter. Während in der US-Bevölkerung im Alter von 25 Jahren und älter im Jahr 2022 nur 23 Prozent einen Bachelor-Abschluss als höchsten Abschluss hielten und 14 Prozent eine höhere Bildung (wie Master, Berufs- oder Doktortitel) hatten, weist das Papier ein viel höheres Bildungsniveau unter den Bewertern auf. Dies wirft Fragen hinsichtlich der Repräsentativität der Forschungsstichprobe im Vergleich zur allgemeinen Bevölkerung auf. Die Entwickler von GAIA erkennen jedoch an, dass die Fragen eher grundlegende Fähigkeiten als Expertenwissen erfordern und somit die Bildungslücke möglicherweise nicht so ausschlaggebend ist.

Der aktuelle Fortschritt bei GAIA und die Einführung des Leaderboards zeigen, dass bereits ein neuer Spitzenreiter existiert, der GPT-4 mit Plugins übertrumpft hat. Diese Leistung wird von der KI-Gemeinschaft aufmerksam verfolgt und befeuert die Diskussion darüber, wie nahe wir der Entwicklung einer echten AGI sind.

Die Akzeptanz von GAIA für die ICLR 2024 unterstreicht die Bedeutung solcher Benchmarks für das Feld der KI-Forschung. Es zeigt, dass die Community eine standardisierte Methode anerkennt, um den Fortschritt auf dem Weg zu AGI zu messen und zu vergleichen. Benchmarks wie GAIA bieten eine Plattform für einen fairen und transparenten Wettbewerb zwischen verschiedenen KI-Modellen und fördern somit die Weiterentwicklung der KI-Technologie.

Die Forschung und Entwicklung im Bereich der Künstlichen Intelligenz schreitet unaufhörlich voran, und Benchmarks wie GAIA sind entscheidend dafür, den Fortschritt in diesem dynamischen und zukunftsweisenden Feld zu dokumentieren. Es bleibt spannend zu beobachten, wie sich die KI-Modelle weiterentwickeln und welche neuen Herausforderungen sie meistern werden.

Was bedeutet das?
No items found.