Die rasante Entwicklung von großen Sprachmodellen (LLMs) führt zu stetig wachsenden Kontextfenstern, die es den Modellen erlauben, immer größere Datenmengen gleichzeitig zu verarbeiten. Diese Entwicklung eröffnet neue Möglichkeiten für Anwendungen und nachgelagerte Funktionen. In vielen realen Szenarien, wie beispielsweise der juristischen Dokumentenprüfung, der wissenschaftlichen Forschung oder der Aufklärung von Kriminalfällen, hängen Entscheidungen von Informationen ab, die über zahlreiche, oft unterschiedliche Dokumente verstreut sind und größtenteils irrelevante Informationen enthalten. LLMs mit großen Kontextfenstern scheinen für diese Art der komplexen Informationsbeschaffung und -verarbeitung gut geeignet zu sein, die traditionell kostspielig und zeitaufwendig ist.
Obwohl die Entwicklung von Modellen mit längeren Kontextfenstern in den letzten Jahren rasante Fortschritte gemacht hat, hinkt unser Verständnis davon, wie effektiv LLMs ihren Kontext nutzen, hinterher. Um diese Lücke zu schließen, wurde eine Reihe von Retrieval-Experimenten durchgeführt, die darauf abzielen, die Fähigkeiten von 17 führenden LLMs zu bewerten, insbesondere ihre Fähigkeit, Informationsfäden durch das Kontextfenster zu verfolgen. Dabei zeigte sich, dass viele Modelle bemerkenswert "threadsicher" sind: Sie sind in der Lage, mehrere Informationsfäden gleichzeitig zu verfolgen, ohne signifikante Leistungseinbußen zu erleiden.
Trotzdem wurde festgestellt, dass die effektive Kontextgrenze für viele Modelle deutlich kürzer ist als die unterstützte Kontextlänge, wobei die Genauigkeit mit zunehmendem Kontextfenster abnimmt. Die Studie unterstreicht auch den wichtigen Punkt, dass Token-Zahlen von verschiedenen Tokenizern nicht direkt verglichen werden sollten, da sie oft unterschiedlichen Mengen an geschriebenen Zeichen entsprechen.
Die bisherigen Benchmarks zur Bewertung von LLMs im Umgang mit großen Kontextfenstern stoßen an ihre Grenzen. Einfache Retrieval-Experimente, wie der "Needle in a Haystack"-Test, werden von modernen LLMs oft mit nahezu perfekten Ergebnissen gelöst. Dies lässt wenig Raum für aussagekräftige Erkenntnisse. Zudem beschränken sich die meisten Benchmarks auf Kontextlängen unter 100.000 Token und bleiben damit weit hinter den Möglichkeiten aktueller Modelle zurück. Schließlich erschwert die Verwendung realer Dokumente oder die Aggregation mehrerer Aufgaben zu einer Gesamtmetrik die Isolierung spezifischer Trends.
Um diese Herausforderungen zu bewältigen, wurden neue Retrieval-basierte Experimente mit unterschiedlichen Schwierigkeitsgraden und Kontextgrößen bis zu 900.000 Token (Gemini 1.5) entwickelt. Diese beinhalten sogenannte "Needle Threading"-Aufgaben, bei denen ein Informationsfaden über verschiedene Teile des Kontexts verfolgt werden muss, um den finalen Wert zu ermitteln. Darüber hinaus wurde eine komplexere Variante, das "Multi-Threading", untersucht, bei der mehrere Fäden gleichzeitig verfolgt werden müssen. Die Ergebnisse zeigen, dass die Leistung in längeren Kontexten abnimmt und dass die Tokenisierung zwischen den Modellen erheblich variiert. Basierend auf diesen Erkenntnissen wurde eine aufgabenspezifische Metrik für die effektive Kontextgrenze vorgeschlagen.
Die Experimente haben gezeigt, dass die Leistung der LLMs bei einfachen "Needle Retrieval"-Aufgaben mit zunehmender Kontextlänge abnimmt, während die gleichzeitige Abfrage mehrerer "Needles" bei stärkeren Modellen einen relativ geringen Einfluss hat. Erstaunlicherweise erwiesen sich viele LLMs als "threadsicher", d.h. ihre Fähigkeit, Informationsfäden zu verfolgen, wurde durch gleichzeitige Abfragen kaum beeinträchtigt. Ein wichtiger Aspekt ist die Tokenisierung: Die Studie verdeutlicht, dass die Anzahl der Token je nach Tokenizer stark variieren kann und daher kein direkter Vergleich zwischen Modellen möglich ist. Daher wurde eine aufgabenspezifische und konfigurierbare, modellunabhängige Metrik für die effektive Kontextgrenze vorgeschlagen.
Diese Forschungsergebnisse tragen zu einem besseren Verständnis der Fähigkeiten und Grenzen von LLMs im Umgang mit großen Kontextfenstern bei. Die "Needle Threading"-Experimente bieten eine wertvolle Grundlage für die Entwicklung robusterer und effizienterer LLMs, die in der Lage sind, komplexe Informationsbeschaffungsaufgaben in realen Szenarien zu bewältigen.
Bibliographie: https://openreview.net/pdf/2801cbd18443a7ca8994dc405c93804120e0cbb2.pdf https://openreview.net/forum?id=wHLMsM1SrP https://paperreading.club/page?id=265045 https://synthical.com/article/Needle-Threading%3A-Can-LLMs-Follow-Threads-through-Near-Million-Scale-Haystacks%3F-fd5b6ba4-acac-4536-b65c-304e154390ef? https://arxiv-sanity-lite.com/ https://www.chatpaper.com/chatpaper/ja?id=3&date=1730995200&page=1 https://www.linkedin.com/posts/stephrwong_technews-threads-twitterx-activity-7097321295830216705-vhis?trk=public_profile_like_view https://www.acm.org/conferences/best-paper-awards https://www.schmetterling-argema.com/new.php?frame=https://gorodvp.ru/sxldrneqchwwfe61v http://paperreading.club/category?cate=LLM