Anthropics Prompt-Caching: Günstigere und Schnellere Langeingabe
Einführung
Die jüngsten Fortschritte in der Künstlichen Intelligenz, insbesondere im Bereich der Verarbeitung natürlicher Sprache, haben eine Welle von Innovationen ausgelöst. Ein bemerkenswertes Beispiel ist das Prompt-Caching von Anthropic, das die Kosten für lange Eingaben erheblich senken kann. Diese Technologie könnte eine Revolution in der Art und Weise bedeuten, wie wir große Sprachmodelle (LLMs) nutzen, indem sie die Effizienz und Geschwindigkeit bei der Verarbeitung umfangreicher Texte verbessert.
Was ist Prompt-Caching?
Prompt-Caching ist eine Technik, die es Entwicklern ermöglicht, häufig verwendete Kontexte zwischen API-Aufrufen zu cachen. Dies bedeutet, dass ein LLM wie Claude mehr Hintergrundwissen und Beispiele zur Verfügung hat, ohne dass diese Informationen bei jedem Aufruf neu bereitgestellt werden müssen. Diese Methode kann die Antwortlatenz um bis zu 85% reduzieren und die Kosten für lange Eingaben um bis zu 90% senken.
Funktionsweise des Prompt-Caching
Die Idee hinter dem Prompt-Caching ist einfach: Sobald ein Kontext einmal verarbeitet wurde, wird dieser im Cache gespeichert. Wenn derselbe oder ein ähnlicher Kontext erneut abgefragt wird, kann das Modell auf die gespeicherten Informationen zugreifen, anstatt den gesamten Kontext neu verarbeiten zu müssen. Dies spart Rechenzeit und Kosten. Ein Beispiel hierfür ist die Verarbeitung eines umfangreichen Dokuments. Anstatt das gesamte Dokument bei jeder Anfrage neu zu analysieren, kann das Modell auf den gecachten Kontext zurückgreifen.
Praktische Anwendungsfälle
Prompt-Caching kann in einer Vielzahl von Szenarien nützlich sein, darunter:
- **Konversationsagenten**: Reduzierung der Kosten und Latenzzeiten bei längeren Gesprächen, insbesondere bei solchen mit ausführlichen Anweisungen oder hochgeladenen Dokumenten.
- **Codierungsassistenten**: Verbesserung der Autovervollständigung und der Q&A-Funktion für den Code durch das Behalten einer zusammengefassten Version der Codebasis im Prompt.
- **Verarbeitung großer Dokumente**: Einbindung von vollständigem, langem Material einschließlich Bildern in den Prompt, ohne die Antwortlatenz zu erhöhen.
- **Detaillierte Anweisungssets**: Teilen umfangreicher Listen von Anweisungen, Verfahren und Beispielen, um die Antworten von Claude zu optimieren.
- **Agentische Suche und Werkzeugnutzung**: Verbesserung der Leistung bei Szenarien, die mehrere Werkzeuganrufe und iterative Änderungen erfordern.
Effizienz und Kostenersparnis
Frühe Anwender haben erhebliche Verbesserungen in Bezug auf Geschwindigkeit und Kosten durch den Einsatz von Prompt-Caching erlebt. So konnte beispielsweise die Latenzzeit bei der Interaktion mit einem Buch (100.000 Zeichen gecachter Prompt) von 11,5 Sekunden auf 2,4 Sekunden reduziert werden, was einer Einsparung von 90% entspricht. Ebenso konnten die Kosten für viele-shot Prompting (10.000 Zeichen Prompt) um 86% gesenkt werden.
Preisgestaltung für gecachte Prompts
Die Preisgestaltung für gecachte Prompts basiert auf der Anzahl der Eingabezeichen, die gecacht werden, und der Häufigkeit der Nutzung dieses Inhalts. Das Schreiben in den Cache kostet 25% mehr als der Basistarif für Eingabezeichen des jeweiligen Modells, während die Nutzung von gecachten Inhalten nur 10% des Basistarifs kostet.
Beispielhafte Modelle und Preise:
- **Claude 3.5 Sonnet**:
- Eingabe: $3 / MTok
- Cache-Schreiben: $3.75 / MTok
- Cache-Lesen: $0.30 / MTok
- Ausgabe: $15 / MTok
- **Claude 3 Opus**:
- Eingabe: $15 / MTok
- Cache-Schreiben: $18.75 / MTok
- Cache-Lesen: $1.50 / MTok
- Ausgabe: $75 / MTok
- **Claude 3 Haiku**:
- Eingabe: $0.25 / MTok
- Cache-Schreiben: $0.30 / MTok
- Cache-Lesen: $0.03 / MTok
- Ausgabe: $1.25 / MTok
Kundenerfolg: Notion
Einer der frühen Anwender von Prompt-Caching ist Notion. Durch die Integration dieser Technologie in ihre AI-Funktionen konnte Notion die internen Abläufe optimieren und eine reaktionsschnellere Benutzererfahrung bieten. Dies führte zu einer schnelleren und kostengünstigeren Leistung der Notion AI.
Fazit
Prompt-Caching stellt einen bedeutenden Fortschritt in der Nutzung von LLMs dar. Durch die Reduzierung von Kosten und Latenzzeiten ermöglicht es Entwicklern, effizientere und kostengünstigere Anwendungen zu schaffen. Mit der fortschreitenden Entwicklung und Integration dieser Technologie könnten wir bald eine breite Anwendung in verschiedenen Bereichen erleben.
Bibliographie
https://www.anthropic.com/news/prompt-caching
https://docs.anthropic.com/en/docs/build-with-claude/prompt-engineering/overview
https://www.forbes.com/sites/lanceeliot/2024/06/12/speeding-up-the-response-time-of-your-prompts-can-be-accomplished-via-these-clever-prompt-engineering-techniques/
https://www.vellum.ai/blog/rag-vs-long-context
https://www.reddit.com/r/MachineLearning/comments/1busp41/d_is_rag_just_glorified_prompt_engineering/
https://www.linkedin.com/posts/pavlosmitsoulis_efficient-prompt-caching-via-embedding-similarity-activity-7175400615982833664-G7_m
https://www.pondhouse-data.com/blog/how-to-save-on-llm-costs
https://python.langchain.com/v0.2/docs/integrations/llm_caching/
https://newsletter.towardsai.net/p/tai-111-what-does-deepseeks-10x-cheaper
https://cloud.google.com/vertex-ai/generative-ai/docs/partner-models/use-claude