In einer bahnbrechenden Entwicklung hat das KI-Unternehmen Anthropic die neueste Familie seiner KI-Modelle, Claude 3, vorgestellt, die auf dem sogenannten "Large Language Model (LLM) Genome Project" basiert. Diese Modelle setzen neue Maßstäbe in einer Vielzahl kognitiver Aufgaben und verfügen über die Fähigkeit, 34 Millionen Merkmale zu erlernen und zu steuern.
Das LLM Genome Project ist eine Initiative, bei der umfangreiche neuronale Netzwerke – bekannt als Transformer – entwickelt werden, die in der Lage sind, menschenähnliche Sprache zu verstehen und zu generieren. Diese Modelle werden durch die Analyse enormer Textmengen trainiert und können für eine Vielzahl von Anwendungen eingesetzt werden, von der Texterstellung bis hin zur Beantwortung von Fragen.
Anthropic hat drei Modelle in dieser Familie veröffentlicht: Claude 3 Haiku, Claude 3 Sonnet und Claude 3 Opus. Jedes dieser Modelle bietet zunehmende Leistungsfähigkeit und ermöglicht es den Nutzern, die optimale Balance zwischen Intelligenz, Geschwindigkeit und Kosten für ihre spezifische Anwendung zu wählen.
Das Claude 3 Sonnet-Modell zum Beispiel ist besonders bemerkenswert, da es die Skalierung der sogenannten Monosemantizität verfolgt. Im Gegensatz zu früheren Konzepten wie der "Superposition" nutzt die Monosemantizität das Prinzip des "Wörterbuchlernens", das aus dem klassischen Maschinenlernen entlehnt ist. Es identifiziert Muster von Neuronenaktivierungen, die sich in vielen verschiedenen Kontexten wiederholen. Jeder interne Zustand des Modells kann dann in Bezug auf eine kleine Anzahl aktiver Merkmale anstatt vieler aktiver Neuronen dargestellt werden.
Die 34 Millionen Merkmale des Claude 3 Sonnet-Modells kodieren eine Vielzahl abstrakter Merkmale, darunter solche, die mit Code und sogar Fehlern zu tun haben. Zu diesen Merkmalen gehören Schmeichelei, Kriminalität/Schaden, Selbstrepräsentation sowie Täuschung und Machtstreben.
Ein entscheidender Aspekt der Forschung zur Interpretierbarkeit ist die gezielte Modifizierbarkeit, die Anthropic demonstriert, indem es Merkmale von -2x bis 10x ihres maximalen Wertes klemmt. Dies ermöglicht es, bestimmte Reaktionen des Modells zu steuern und die Auswirkungen von Änderungen an den Merkmalen zu beobachten.
Neben der Leistung in kognitiven Aufgaben verfügen die Claude 3-Modelle auch über ausgeprägte visuelle Fähigkeiten. Sie können eine Vielzahl visueller Formate verarbeiten, einschließlich Fotos, Diagramme, Grafiken und technische Zeichnungen. Diese Fähigkeiten sind besonders wertvoll für Unternehmen, die einen großen Teil ihres Wissens in verschiedenen Formaten wie PDFs, Flussdiagrammen oder Präsentationsfolien kodiert haben.
Die Claude 3-Modelle wurden auch in Bezug auf die Verweigerung von Antworten verbessert. Frühere Modelle verweigerten oft unnötigerweise Antworten, was auf ein mangelndes Kontextverständnis hindeutete. Die neuen Modelle sind deutlich weniger wahrscheinlich, Anfragen zu verweigern, die an den Systemrichtlinien grenzen.
In Bezug auf die Genauigkeit verlassen sich Unternehmen aller Größen auf unsere Modelle, um ihren Kunden zu dienen. Es ist daher unerlässlich, dass die Modellausgaben eine hohe Genauigkeit beibehalten. Claude 3 Opus zeigt eine Verdoppelung der Genauigkeit bei der Beantwortung komplexer, offener Fragen im Vergleich zu Claude 2.1 und weist gleichzeitig eine verringerte Anzahl falscher Antworten auf.
Anthropic hat auch Fortschritte in Bezug auf die Verantwortung gemacht. Die Claude 3-Modellfamilie wurde entwickelt, um so vertrauenswürdig wie leistungsfähig zu sein. Das Unternehmen hat mehrere spezialisierte Teams, die ein breites Spektrum an Risiken verfolgen und abschwächen, von Fehlinformationen und CSAM bis hin zu biologischem Missbrauch, Wahlbeeinflussung und autonomen Replikationsfähigkeiten. Es wurden Methoden wie Constitutional AI entwickelt, um die Sicherheit und Transparenz der Modelle zu verbessern, und die Modelle wurden so eingestellt, dass sie mögliche Datenschutzprobleme, die durch neue Modalitäten entstehen könnten, abschwächen.
Beim Umgang mit immer ausgefeilteren Modellen ist die Bekämpfung von Voreingenommenheiten eine andauernde Bemühung. Claude 3 zeigt laut dem Bias Benchmark für Fragebeantwortung (BBQ) weniger Voreingenommenheiten als frühere Modelle. Anthropic ist weiterhin bestrebt, Techniken zu entwickeln, die Voreingenommenheiten reduzieren und eine größere Neutralität in den Modellen fördern, um sicherzustellen, dass sie nicht zu einer bestimmten parteiischen Haltung tendieren.
Die Claude 3 Modelle sind nun in der claude.ai API verfügbar und in 159 Ländern allgemein zugänglich. Sonnet treibt darüber hinaus die kostenlose Erfahrung auf claude.ai an, während Opus für Claude Pro-Abonnenten verfügbar ist. Sonnet ist außerdem bereits heute über Amazon Bedrock verfügbar und in einer privaten Vorschau auf Googles Vertex AI Model Garden - Opus und Haiku werden in Kürze für beide folgen.
Anthropic hat nicht nur in Bezug auf die Modellintelligenz große Fortschritte gemacht, sondern plant auch, in den nächsten Monaten häufig Updates für die Claude 3 Modelle zu veröffentlichen. Darüber hinaus freut sich das Unternehmen darauf, eine Reihe von Funktionen zu veröffentlichen, die die Fähigkeiten der Modelle verbessern, insbesondere für Unternehmensanwendungen und großangelegte Implementierungen.
Dieser Artikel stützt sich auf Informationen aus verschiedenen Quellen, einschließlich der offiziellen Ankündigungen von Anthropics und Beiträgen von Experten aus der KI-Gemeinschaft.
Quellen:
- Anthropics Newsseite über Claude 3 Familie: https://www.anthropic.com/news/claude-3-family
- DirectIndustry e-Magazin über die Einführung der Claude 3 KI-Modelle: https://emag.directindustry.com/2024/03/05/ai-news-anthropic-unveils-claude-3/
- Repost von AWS über Anthropics Claude 3 Sonnet Vision Capabilities: https://repost.aws/articles/AReXoGO615SFSqDIVtcLaAGw/anthropic-claude-3-sonnet-vision-capabilities