Die Entwicklung im Bereich der Künstlichen Intelligenz (KI) schreitet rasant voran. OpenAI, ein führendes Unternehmen in diesem Bereich, hat kürzlich die Veröffentlichung seines neuesten Modells, o3, angekündigt. Dieses Modell soll in verschiedenen Reasoning-Benchmarks, darunter Mathematik und Programmierung, herausragende Ergebnisse erzielt und sogar menschliche Leistungen übertroffen haben. Zusätzlich zu o3 wurde auch eine ressourcenschonendere Variante, o3-mini, vorgestellt, die ein starkes Preis-Leistungs-Verhältnis verspricht.
OpenAI präsentiert o3 als einen signifikanten Fortschritt im Vergleich zu früheren Modellen, insbesondere im Bereich des komplexen Denkens (Reasoning). In anspruchsvollen Benchmarks wie dem "Software-Stil"-Benchmark "SWE-Bench Verified" erreichte o3 eine Genauigkeit von 71,7 Prozent, eine Steigerung von über 20 Prozent gegenüber dem Vorgängermodell o1. Auch im "Codeforces"-Benchmark für Wettbewerbsprogrammierung übertraf o3 mit einer Elo-Wertung von 2727 die meisten menschlichen Teilnehmer. Im "GPQ Diamond"-Benchmark, der die Fähigkeiten von Mathematik-Doktoranden testet, erzielte o3 eine Genauigkeit von 87,7 Prozent und übertraf damit die Leistungen typischer Experten mit Mathematik-Promotion. Besonders bemerkenswert sind die Ergebnisse im "Frontier Math Benchmark" von Epoch AI, wo o3 eine Genauigkeit von über 25 Prozent erreichte, während frühere Modelle unter 2 Prozent lagen.
Einen weiteren Meilenstein erreichte o3 im "Arc AGI" Reasoning-Benchmark. In einer "High-Compute"-Konfiguration erzielte das Modell eine Genauigkeit von 87,5 Prozent und übertraf damit erstmals die durchschnittliche menschliche Leistung von etwa 85 Prozent. Der ARC-AGI-Benchmark gilt als wichtiger Indikator für Fortschritte in Richtung Künstlicher Allgemeiner Intelligenz (AGI), da er die Fähigkeit von KI-Systemen testet, neue Aufgaben zu lösen und zu generalisieren. Obwohl o3 in diesem Benchmark beeindruckende Ergebnisse erzielt, betont OpenAI, dass dies nicht die Erreichung von AGI bedeutet. Das Modell scheitert weiterhin an einigen vergleichsweise einfachen Aufgaben, was auf grundlegende Unterschiede zur menschlichen Intelligenz hinweist.
Neben o3 stellte OpenAI auch o3-mini vor, eine kleinere und effizientere Version des Modells. o3-mini bietet bei ähnlicher Leistung wie o1 eine deutlich höhere Geschwindigkeit und geringere Kosten. Nutzer können zwischen drei Modi mit unterschiedlichem Rechenaufwand wählen, um die Balance zwischen Leistung und Ressourcenverbrauch zu optimieren. Demonstrationen zeigten, wie o3-mini in Echtzeit eine Selbstevaluation durchführen kann, indem es eigenständig Code für die Evaluation generiert und ausführt.
Bevor o3 und o3-mini der Öffentlichkeit zugänglich gemacht werden, führt OpenAI umfangreiche Sicherheitstests durch. Ausgewählte Sicherheitsforscher erhalten Zugang zu den Modellen, um potenzielle Schwachstellen und Missbrauchspotenziale zu identifizieren. Ein neues "Deliberative Alignment"-Verfahren soll die Modelle an Sicherheitsrichtlinien ausrichten und unerwünschte Anfragen besser erkennen und ablehnen lassen. Die Veröffentlichung von o3-mini ist für Ende Januar 2025 geplant, die Vollversion o3 soll kurz darauf folgen.
Die Entwicklung von o3 und o3-mini findet in einem dynamischen Wettbewerbsumfeld statt. Auch andere Unternehmen, wie beispielsweise Google mit seinem "Gemini 2.0 Flash"-Modell, arbeiten an Reasoning-fähigen Sprachmodellen. Gemini 2.0 verfügt über einen "Denkmodus", der Antworten vor der Ausgabe überprüft und verbessert. Nutzer erhalten optional Einblick in die "Gedanken" des Systems. Auch dieses Modell wird zunächst nur in einer experimentellen, eingeschränkten Version verfügbar sein.
Bibliographie: https://the-decoder.de/openais-neues-reasoning-modell-o3-startet-ab-ende-januar-2025/ https://www.heise.de/newsticker/classic/ https://www.it-vogelmann.de/ https://kinews24.de/alibaba-qwq-32b-preview-der-neue-herausforderer-im-bereich-der-reasoning-ai-hat-openai-o1-jetzt-ein-problem/ https://www.youtube.com/watch?v=fJ3Kj3MACsM https://www.startplatz.de/event/genai-ki-webinar-openai-new-paradigm-o1-explained-by-hamid-hosseini-ecodynamics-2024-09-17