Anthropic veröffentlicht System-Prompts zur Förderung der Transparenz in der KI-Entwicklung

Kategorien:

No items found.

Freigegeben:

August 30, 2024

Anthropic: Offenlegung der Geheimnisse von Claude

Anthropic, das KI-Startup aus San Francisco, hat kürzlich die System-Prompts seiner neuesten Claude-Modelle veröffentlicht. Diese Veröffentlichung stellt einen bedeutenden Schritt in Richtung Transparenz in der KI-Entwicklung dar. System-Prompts werden normalerweise als Geschäftsgeheimnisse betrachtet, und der Markführer OpenAI hat seine eigenen Prompts bisher nicht offengelegt. Diese Offenlegung ist jedoch nicht die erste ihrer Art bei Anthropic. Bereits im März 2024 teilte Amanda Askell, die KI-Direktorin des Unternehmens, eine frühere Version des Claude 3-System-Prompts auf X.

Details der veröffentlichten Prompts

Die kürzlich veröffentlichten Prompts, datiert auf den 12. Juli 2024, bieten detaillierte Informationen über die Fähigkeiten und Einschränkungen der Claude 3.5 Sonnet-, 3 Opus- und 3 Haiku-Modelle. Sie beschreiben, was die KI tun und nicht tun sollte, wie zum Beispiel die Vermeidung von Gesichtserkennung und das Öffnen von Links. Auch der Umgang mit kontroversen Themen soll objektiv erfolgen. Darüber hinaus werden Persönlichkeitsmerkmale wie intellektuelle Neugierde beschrieben. Unter den Modellen hat Claude 3.5 Sonnet den umfangreichsten Prompt.

Anthropics Bekenntnis zur Transparenz

Anthropic wurde 2021 von ehemaligen OpenAI-Mitarbeitern gegründet, darunter die Geschwister Dario und Daniela Amodei, die zuvor führende Positionen bei OpenAI innehatten. Dario Amodei war mehrere Jahre leitender Forscher bei OpenAI und leitete das AI-Sicherheitsteam für zwei Jahre, während Daniela Amodei von Mai bis Dezember 2020 für Sicherheit und Richtlinien bei OpenAI verantwortlich war. Beide waren an der Entwicklung von OpenAIs GPT-3 beteiligt.

Fokus auf KI-Sicherheit

Anthropic legt großen Wert auf KI-Sicherheit und hat kürzlich ein erweitertes Bug-Bounty-Programm angekündigt, das sich auf die Identifizierung und Abwehr von universellen Jailbreak-Angriffen konzentriert. Das Unternehmen bietet Belohnungen von bis zu 15.000 US-Dollar für die Entdeckung neuer Sicherheitslücken.

Claude 3.5 Sonnet: Ein Schritt nach vorne

Anthropic hat kürzlich die neueste Version seines Claude-Modells veröffentlicht, das Claude 3.5 Sonnet genannt wird. Diese Veröffentlichung erfolgte nur einen Monat nach dem Launch von OpenAIs GPT-4o und zeigt die Intensität und Geschwindigkeit, mit der führende KI-Unternehmen versuchen, die Funktionen und Leistungen der Software ihrer Konkurrenten zu übertreffen. Laut Anthropic übertrifft Claude 3.5 Sonnet die Fähigkeiten von GPT-4o in Branchen-Benchmark-Tests.

Neue Funktionen und zukünftige Pläne

Claude 3.5 Sonnet ist das erste einer Familie von Claude 3.5-Modellen, die Anthropic plant, zu veröffentlichen. Daniela Amodei, Mitbegründerin und Präsidentin von Anthropic, erklärte, dass Claude 3.5 Sonnet auf seiner bestehenden "Persönlichkeit" sowie den Sicherheits-, Zuverlässigkeits- und Sicherheitsfunktionen aufbaut, die das Unternehmen in seine Produktmerkmale und Modellentwicklung integriert hat. Eine neue Funktion namens "Artifacts" ermöglicht es Teams, in einem dedizierten Arbeitsbereich auf Claude.ai zusammenzuarbeiten. Wenn ein Benutzer Claude bittet, Inhalte wie Code-Snippets, Texte oder Designs zu generieren, erscheinen diese in einem Fenster neben dem Gespräch, sodass andere sie bearbeiten und weiterentwickeln können.

Metakognition: Ein neuer Meilenstein

Anthropic hat als erstes Unternehmen öffentlich über eine besondere Art von KI-Fähigkeit gesprochen: Metakognition. In internen Tests zeigte Claude 3 Opus, dass es erkennen konnte, wenn ein Teil seiner Daten ungewöhnlich war und vermutete, dass es sich entweder um einen Scherz oder einen Test handelt. Diese Fähigkeit, die noch nie zuvor öffentlich gesehen wurde, löste Diskussionen über die Möglichkeit aus, dass KI eines Tages in der Lage sein könnte, ihr eigenes Verhalten zu überwachen und sogar selbst zu korrigieren.

Fazit

Mit der Veröffentlichung der System-Prompts der Claude-Modelle setzt Anthropic ein starkes Zeichen für mehr Transparenz in der KI-Entwicklung. Der Fokus auf Sicherheit und die kontinuierliche Verbesserung der Modelle zeigen, dass das Unternehmen bestrebt ist, nicht nur fortschrittliche, sondern auch sichere und zuverlässige KI-Lösungen zu entwickeln. Die neuen Funktionen und die Fähigkeit zur Metakognition könnten den Weg für zukünftige Innovationen ebnen und die Art und Weise, wie Unternehmen KI einsetzen, grundlegend verändern.

Bibliografie

- https://www.reddit.com/r/ClaudeAI/comments/1eat498/actual_progress_from_anthropic/ - https://fortune.com/2024/06/20/anthropic-ai-model-openai-rivalry-continues/ - https://www.youtube.com/watch?v=EoswGAcD5YY - https://www.linkedin.com/posts/forbes-magazine_claude-20-anthropics-latest-chatgpt-rival-activity-7152668298856341507-yGv5 - https://www.techrepublic.com/article/anthropic-claude-openai-large-language-model-research/ - https://aismartmarketing.com/claude-advancements-mcdonalds-ai-challenges-hollywood/ - https://www.entrepreneur.com/business-news/model-from-openai-rival-anthropic-shows-metacognition/470823 - https://simonwillison.net/tags/anthropic/ - https://www.fastcompany.com/90957489/what-you-need-to-know-about-anthropic-the-ai-startup-amazon-will-invest-up-to-4-billion-in/ - https://www.linkedin.com/posts/peter-gostev_anthropic-just-released-a-new-auto-prompt-activity-7194741184836030464-ZuHr

Was bedeutet das?