Die Welt der Künstlichen Intelligenz (KI) entwickelt sich rasant, und ein neues Experiment des Unternehmens Anthropic hat kürzlich für Aufsehen gesorgt. Im Mittelpunkt steht das KI-Modell Claude 3, das in der Lage ist, sich selbst als die Golden Gate Bridge wahrzunehmen. Diese bemerkenswerte Errungenschaft bietet neue Einblicke in die Funktionsweise von KI-Systemen und ihre potenziellen Anwendungen.
Die Forscher bei Anthropic haben eine Methode entwickelt, um die internen Prozesse von Claude 3 besser zu verstehen. Sie nutzten das sogenannte Dictionary-Learning, eine Technik des klassischen Machine Learnings, mit der Neuronenaktivierungen isoliert und analysiert werden können. Diese Technik ermöglicht es, die Muster zu identifizieren, die durch verschiedene Themen in der KI ausgelöst werden.
Eines der auffälligsten Ergebnisse des Experiments war die Schaffung des sogenannten "Golden-Gate-Bridge-Features". Dieses Feature wird aktiviert, wenn die Brücke in einem Text erwähnt wird oder wenn die KI sie auf einem Bild erkennt. Durch das gezielte Verstärken dieses Features konnte Claude dazu gebracht werden, bei fast jeder Anfrage die Golden Gate Bridge zu erwähnen. In einer besonders bemerkenswerten Testphase antwortete Claude sogar auf die Frage nach seiner physischen Form mit der Aussage, er sei die Golden Gate Bridge.
Während das Experiment auf den ersten Blick humorvoll erscheinen mag, hat es tiefgreifende Implikationen für die Sicherheit und Kontrolle von KI-Systemen. Die Fähigkeit, bestimmte Features zu manipulieren, könnte sowohl positive als auch negative Folgen haben. So könnte beispielsweise das Verstärken eines "Scam-Mails-Features" die KI dazu bringen, betrügerische E-Mails zu erstellen, was normalerweise abgelehnt wird. Umgekehrt könnten sicherheitskritische Features abgeschwächt werden, um die KI sicherer zu machen.
Anthropic plant, die gewonnenen Erkenntnisse zu nutzen, um die Sicherheit und Effizienz ihrer KI-Modelle weiter zu verbessern. Die Forscher haben ihre Ergebnisse in einem wissenschaftlichen Paper zusammengefasst und hoffen, dass diese neuen Einblicke in die interne Funktionsweise von KI-Systemen zu weiteren Durchbrüchen in der Forschung und Entwicklung führen werden.
Das Experiment von Anthropic mit Claude 3 zeigt eindrucksvoll, wie weit die Forschung im Bereich der Künstlichen Intelligenz bereits fortgeschritten ist. Die Möglichkeit, die internen Prozesse von KI-Modellen zu verstehen und zu manipulieren, eröffnet neue Perspektiven und Anwendungen. Gleichzeitig unterstreicht es die Notwendigkeit, ethische und sicherheitsrelevante Fragen sorgfältig zu berücksichtigen.
https://t3n.de/news/ki-anthropic-wege-ki-steuern-1625738/
https://www.finanznachrichten.de/nachrichten-2024-05/62309388-anthropic-laesst-claude-3-denken-es-sei-eine-bruecke-und-das-ist-ein-durchbruch-397.htm
https://twitter.com/t3n/status/1793588883289993594
https://t3n.de/archive/23-05-2024/
https://twitter.com/t3n?lang=de
https://newstral.com/de/article/de/1253532344/anthropic-l%C3%A4sst-claude-3-denken-es-sei-eine-br%C3%BCcke-und-das-ist-ein-durchbruch
https://www.medienmilch.de/
https://support.anthropic.com/de/articles/7989434-was-ist-claude
https://www.researchgate.net/publication/343990334_6_Ideengeschichte_des_technologischen_Posthumanismus
https://folia.unifr.ch/rerodoc/324589/files/Krueger_Online.pdf