OpenAI o1 Entdeckt Neue Dimensionen der KI Leistungsfähigkeit

Kategorien:
No items found.
Freigegeben:
October 1, 2024

OpenAIs o1: Mehr als nur verbessertes Schritt-für-Schritt-Prompting?

OpenAIs neuestes Sprachmodell, o1, scheint mehr zu bieten als nur verbesserte Schritt-für-Schritt-Argumentationsfähigkeiten. OpenAI gibt an, einen Weg gefunden zu haben, die Fähigkeiten der KI durch Skalierung der Inferenz-Rechenleistung zu skalieren. Durch die Nutzung der erhöhten Rechenressourcen und die Ermöglichung längerer Reaktionszeiten soll o1 bessere Ergebnisse liefern. Dies würde neue Möglichkeiten für die Skalierung von KI eröffnen. Obwohl das Modell mit der beliebten Schritt-für-Schritt-Inferenzmethode von Grund auf neu trainiert wurde, ist seine verbesserte Leistung wahrscheinlich auf zusätzliche Faktoren zurückzuführen. Forscher von Epoch AI haben kürzlich versucht, die Leistung von o1-preview auf einem anspruchsvollen wissenschaftlichen Multiple-Choice-Benchmark namens GPQA (Graduate-Level Google-Proof Q&A Benchmark) zu erreichen. Sie verwendeten GPT-4o mit zwei Prompting-Techniken (Revisionen und Mehrheitsentscheidungen), um eine große Anzahl von Token zu generieren, ähnlich dem "Gedankenprozess" von o1. Die Ergebnisse zeigten, dass die Generierung von mehr Token zwar zu leichten Verbesserungen führte, aber keine Anzahl von Token auch nur annähernd an die Leistung von o1-preview heranreichen konnte. Selbst mit einer hohen Token-Anzahl blieb die Genauigkeit der GPT-4o-Varianten deutlich hinter der von o1-preview zurück.

Dieser Leistungsunterschied blieb auch dann bestehen, wenn die höheren Kosten pro Token von o1-preview berücksichtigt wurden. Die Hochrechnung von Epoch AI legt nahe, dass die Ausgabe von 1.000 US-Dollar für Output-Token mit GPT-4o immer noch zu einer Genauigkeit von mehr als 10 Prozentpunkten unter o1-preview führen würde.

Was ist die geheime Zutat von o1?

Die Forscher kommen zu dem Schluss, dass die reine Skalierung der Inferenz-Rechenleistung nicht ausreicht, um die überlegene Leistung von o1 zu erklären. Sie vermuten, dass fortschrittliche Reinforcement-Learning-Techniken und verbesserte Suchmethoden eine Schlüsselrolle spielen, was die Bedeutung algorithmischer Innovation für den Fortschritt der KI unterstreicht. Die Autoren der Studie weisen jedoch darauf hin, dass ihre Ergebnisse nicht eindeutig belegen, dass algorithmische Verbesserungen der einzige Faktor für den Vorsprung von o1-preview gegenüber GPT-4o sind. Auch qualitativ hochwertigere Trainingsdaten könnten zu dem Leistungsunterschied beitragen. Da o1 direkt auf korrekten Argumentationspfaden trainiert wurde, könnte es auch effizienter darin sein, erlernten logischen Schritten zu folgen, die schneller zu korrekten Ergebnissen führen, wodurch die verfügbare Rechenleistung möglicherweise besser genutzt wird. Unabhängig davon fanden Forscher der Arizona State University heraus, dass o1 zwar erhebliche Fortschritte bei Planungsaufgaben zeigt, aber dennoch fehleranfällig ist. Ihre Studie ergab eine verbesserte Leistung bei Logik-Benchmarks, stellte aber fest, dass o1 keine Garantie für korrekte Lösungen bietet. Im Gegensatz dazu erzielten traditionelle Planungsalgorithmen perfekte Genauigkeit bei kürzeren Rechenzeiten und geringeren Kosten.

Bibliographie

https://www.louisbouchard.ai/openai-o1/
https://www.linkedin.com/pulse/how-prompt-openais-new-o1-models-manikandan-palani-xwo3e
https://www.youtube.com/watch?v=E-T8QLdLuBQ
https://www.reddit.com/r/OpenAI/comments/1flrp5v/openai_has_released_a_new_o1_prompting_guide/
https://www.forbes.com/sites/lanceeliot/2024/09/13/making-logical-sense-of-the-newly-launched-openai-o1-model-that-thinks-longer-and-keeps-hidden-its-ace-in-the-hole-chain-of-thought/
https://aiheroes.io/openais-o1-the-ai-that-thinks-before-it-speaks/
https://openai.com/index/learning-to-reason-with-llms/
https://www.zeniteq.com/blog/openais-new-o1-model-spends-more-time-thinking-for-better-response
https://huggingface.co/blog/wenbopan/recreating-o1
https://www.sectionschool.com/blog/what-is-chatgpt-o1
Was bedeutet das?