Das KI-Unternehmen Anthropic hat mit "Computer Use" eine neue Funktion für sein Sprachmodell Claude 3.5 Sonnet vorgestellt. Diese Funktion ermöglicht es Claude, Computer ähnlich wie ein Mensch zu bedienen – durch die Interpretation von Bildschirminhalten und die Ausführung von Aktionen wie Klicken, Scrollen und Texteingabe. Die Technologie befindet sich derzeit in der öffentlichen Beta-Phase und wird als experimentell eingestuft.
Claude 3.5 Sonnet nutzt eine Kombination aus Computer Vision und einer speziell entwickelten API, um Computer zu bedienen. Entwickler stellen Claude sogenannte "Computer Use Tools" zur Verfügung, die jeweils spezifische Aktionen innerhalb einer grafischen Benutzeroberfläche ausführen können. Durch die Kombination dieser Tools mit Benutzeranweisungen erhält Claude die notwendigen Informationen und den Kontext, um Aufgaben zu erledigen. Claude analysiert die Bildschirminhalte, identifiziert relevante Elemente und führt die entsprechenden Aktionen aus. Der Prozess läuft iterativ ab, wobei Claude Feedback in Form von Screenshots oder Textnachrichten erhält, um den Fortschritt zu überwachen und gegebenenfalls Korrekturen vorzunehmen.
Die "Computer Use"-Funktion eröffnet eine Vielzahl von Anwendungsmöglichkeiten. Claude kann beispielsweise Webseiten navigieren, Formulare ausfüllen, Desktop-Anwendungen starten und steuern sowie Informationen aus verschiedenen Quellen sammeln. Dies ermöglicht die Automatisierung repetitiver Aufgaben, die Verbesserung der Barrierefreiheit für Menschen mit Behinderungen und die Personalisierung von Softwareerlebnissen. Unternehmen wie Asana, Canva, Cognition, DoorDash, Replit und The Browser Company erforschen bereits die Möglichkeiten dieser Technologie für ihre jeweiligen Anwendungsfälle.
Obwohl "Computer Use" vielversprechend ist, gibt es noch einige Herausforderungen. Die Technologie ist noch fehleranfällig und bestimmte Aktionen wie Scrollen, Ziehen und Zoomen stellen noch Schwierigkeiten dar. Auch die Geschwindigkeit der Interaktion ist derzeit noch begrenzt. Darüber hinaus birgt die neue Funktion Sicherheitsrisiken, wie z.B. "Prompt Injection"-Angriffe, bei denen bösartige Anweisungen in die Eingaben eingeschleust werden können. Anthropic arbeitet aktiv an der Verbesserung der Sicherheit und Zuverlässigkeit von "Computer Use" und hat bereits Maßnahmen ergriffen, um Missbrauch zu verhindern.
Neben "Computer Use" hat Anthropic auch das Modell Claude 3.5 Sonnet verbessert und ein neues Modell namens Claude 3.5 Haiku vorgestellt. Claude 3.5 Sonnet bietet nun verbesserte Leistung in den Bereichen Coding, Reasoning und Tool Use. Claude 3.5 Haiku ist eine schnellere und kostengünstigere Alternative, die in vielen Benchmarks sogar das Vorgängermodell Claude 3 Opus übertrifft. Beide Modelle sind über die Anthropic API, Amazon Bedrock und Google Cloud's Vertex AI verfügbar.
Die "Computer Use"-Funktion von Claude 3.5 Sonnet stellt einen bedeutenden Fortschritt in der KI-Entwicklung dar. Obwohl die Technologie noch in den Kinderschuhen steckt, hat sie das Potenzial, die Art und Weise, wie wir mit Computern interagieren und Aufgaben automatisieren, grundlegend zu verändern. Anthropic setzt auf kontinuierliche Weiterentwicklung und Feedback von Entwicklern, um die Funktionalität und Sicherheit von "Computer Use" weiter zu verbessern.
Bibliographie: https://www.anthropic.com/news/3-5-models-and-computer-use https://t3n.de/news/claude-35-ki-computer-steuerung-1653110/ https://onlinemarketing.de/technologie/ki-modell-kann-computer-bedienen-anthropic-claude https://www.datacamp.com/blog/what-is-anthropic-computer-use https://www.reddit.com/r/LocalLLaMA/comments/1gcasik/a_glimpse_of_the_new_claude_35sonnet_computer_use/ https://medium.com/@cognidownunder/claude-3-5s-computer-use-feature-a-game-changer-for-industry-automation-7c32ccad26f9 https://www.anthropic.com/news/developing-computer-use https://www.ikangai.com/computer-use-how-autonomous-agents-start-to-taker-over-your-computer/