Anthropic hat seine KI-Modellfamilie Claude 3.5 um eine bemerkenswerte Funktion erweitert: die Fähigkeit, PDFs nicht nur textuell, sondern auch visuell zu analysieren. Diese Erweiterung, aktuell in der öffentlichen Beta-Phase, ermöglicht es Claude 3.5 Sonnet, Bilder, Diagramme und Tabellen innerhalb von PDF-Dokumenten zu interpretieren und in seine Analyse einzubeziehen.
Die PDF-Verarbeitung erfolgt in drei Schritten: Zunächst extrahiert das System den Text aus dem Dokument. Anschließend konvertiert es jede Seite in ein Bild, um die visuellen Elemente zu erfassen. Im letzten Schritt analysiert Claude 3.5 Sonnet sowohl den extrahierten Text als auch die Bilddarstellungen der Seiten, um ein umfassendes Verständnis des Dokuments zu gewinnen.
Diese neue Funktion eröffnet eine Vielzahl von Anwendungsmöglichkeiten. Finanzberichte können nun mitsamt ihren Diagrammen und Tabellen analysiert werden, juristische Dokumente können effizienter durchsucht und übersetzt werden, und auch die Extraktion von Informationen aus Dokumenten mit komplexen visuellen Darstellungen wird deutlich erleichtert. Die Kombination aus Text- und Bildanalyse ermöglicht es Claude, Zusammenhänge zwischen den verschiedenen Elementen eines Dokuments herzustellen und so ein tieferes Verständnis zu erreichen.
Die PDF-Funktionalität lässt sich nahtlos mit anderen Funktionen von Claude kombinieren, wie beispielsweise der Nutzung von Tools oder dem Prompt-Caching. So können spezifische Informationen aus Dokumenten extrahiert und als Eingabe für Tools verwendet werden. Das Prompt-Caching erhöht die Effizienz bei der wiederholten Analyse desselben Dokuments.
Derzeit ist die PDF-Unterstützung über die Chat-Funktion von Claude und über die API mit dem Header "anthropic-beta: pdfs-2024-09-25" verfügbar. Anthropic plant, die Unterstützung für Amazon Bedrock und Google Vertex AI in Kürze zu erweitern.
Für optimale Ergebnisse empfiehlt Anthropic, sicherzustellen, dass die Dokumente einen klaren, lesbaren Text und korrekt ausgerichtete Seiten aufweisen. Bei Bezugnahme auf bestimmte Abschnitte sollten die in PDF-Viewern angezeigten Seitenzahlen verwendet werden. Für die API-Nutzung sollten PDFs vor dem Text in den Anfragen platziert werden. Große Dokumente, die die Größenbeschränkungen überschreiten, sollten in kleinere Segmente aufgeteilt werden.
Die Kosten für die Verarbeitung variieren je nach Länge und Inhaltsdichte des Dokuments. Jede Seite benötigt typischerweise zwischen 1.500 und 3.000 Tokens. Es fallen keine zusätzlichen Gebühren über die Standard-Token-Gebühren hinaus an.
Mit der Einführung der PDF-Analyse mit visueller Komponente unterstreicht Anthropic seine kontinuierliche Innovation im Bereich der KI-gestützten Dokumentenverarbeitung. Die Kombination aus fortschrittlicher Text- und Bildanalyse ermöglicht es Claude 3.5 Sonnet, komplexe Dokumente umfassender zu verstehen und so neue Anwendungsmöglichkeiten für Unternehmen und Privatpersonen zu erschließen.
Bibliographie: https://analyticsindiamag.com/ai-news-updates/anthropic-introduces-claude-3-5-sonnet-with-visual-pdf-analysis-for-images-charts-and-graphs-under-100-pages/ https://www.anthropic.com/news/claude-3-5-sonnet https://www.linkedin.com/posts/anthropicresearch_claude-can-now-view-images-within-a-pdf-activity-7258159565257469954--z40 https://docs.anthropic.com/en/docs/build-with-claude/pdf-support https://www.reddit.com/r/ClaudeAI/comments/1bgkv4o/can_claude_3_process_large_pdfs_with_text_diagrams/ https://x.com/AnthropicAI/status/1852393688451653849 https://decrypt.co/287767/anthropic-unleashes-claude-3-5-sonnet-smart-enough-take-over-computer https://www.marketingaiinstitute.com/blog/the-ai-show-episode-121 https://www.lesswrong.com/posts/wx4RhFzLbiHoShFjR/on-claude-3-5-sonnet https://www.anthropic.com/claude/sonnet