Große Sprachmodelle (Large Language Models, LLMs) sind ein fester Bestandteil der modernen KI-Landschaft geworden und bieten beeindruckende Fähigkeiten im Verständnis und Generieren natürlicher Sprache. Diese Modelle haben jedoch ihre Grenzen, vor allem wenn es darum geht, Texte zu verarbeiten, die länger sind als das, was sie während ihres Trainings gesehen haben. Die Begrenzung der Kontextfenster – also der Textmenge, die ein Modell bei einer Entscheidung berücksichtigen kann – stellt eine erhebliche Einschränkung dar. Forscher auf der ganzen Welt arbeiten an innovativen Ansätzen, um diese Grenzen zu erweitern und die Anwendungsmöglichkeiten von LLMs zu verbessern.
Einer der vielversprechenden Ansätze zur Erweiterung des Kontextfensters von LLMs ist die Modifikation von Rotary Position Embeddings (RoPE), einer beliebten Methode zur Positionscodierung, die von bekannten LLMs wie LLaMA, PaLM und GPT-NeoX verwendet wird. Frühere Arbeiten, wie Position Interpolation (PI) und YaRN, konnten zwar Fortschritte erzielen, waren aber ressourcenintensiv und es fehlten vergleichende Experimente, um ihre Anwendbarkeit zu bewerten.
Ein kürzlich veröffentlichtes Papier auf der Plattform arXiv von Shouyuan Chen et al. beschreibt einen neuen Ansatz namens Position Interpolation, der die Kontextfenstergrößen von RoPE-basierten vortrainierten LLMs erheblich ausdehnen kann. Mit minimaler Feinabstimmung in weniger als 1000 Schritten erreichen sie eine deutliche Vergrößerung des Kontextfensters, während sie die Qualität der Modellergebnisse auf Aufgaben, die innerhalb des ursprünglichen Kontextfensters liegen, relativ gut bewahren. Ihr theoretischer Ansatz zeigt, dass die obere Grenze der Interpolation deutlich stabiler ist als die der Extrapolation, was die Zuverlässigkeit des Ansatzes weiter unterstreicht.
Ein weiterer Ansatz wird von Weizhi Fei et al. in einem Paper vorgestellt, das eine Methode der semantischen Kompression beschreibt. Dieser Ansatz nutzt die Inspiration aus der Quellcodierung in der Informationstheorie, um die semantische Redundanz langer Eingaben vor der Verarbeitung durch LLMs zu reduzieren. Dies trägt dazu bei, die Kontextfenster von LLMs effektiv zu erweitern und gleichzeitig die damit verbundenen Rechenkosten zu reduzieren. Experimentelle Ergebnisse zeigen, dass diese Methode die Kontextfenster von LLMs über ein Spektrum von Aufgaben effektiv erweitert, ohne dabei die Flüssigkeit der Textgenerierung zu beeinträchtigen.
Peng Xu et al. untersuchten in ihrer Studie die Möglichkeiten der Kombination von Retrieval-Methoden mit der Erweiterung des Kontextfensters. Sie fanden heraus, dass ein LLM mit einem 4K-Kontextfenster, das bei der Generierung einfache Retrieval-Erweiterungen verwendet, eine vergleichbare Leistung zu einem feinabgestimmten LLM mit einem 16K-Kontextfenster auf langen Kontextaufgaben erreichen kann, während es deutlich weniger Rechenleistung benötigt. Zudem zeigten sie, dass Retrieval die Leistung von LLMs unabhängig von der Größe ihres erweiterten Kontextfensters signifikant verbessern kann.
Die Forschungsarbeit, die von @_akhaliq auf Twitter erwähnt wurde, hebt hervor, wie wichtig es ist, die Aufmerksamkeitsentropie – also die Informationsentropie der Aufmerksamkeitswerte – bei der Erweiterung des Kontextfensters stabil zu halten. Die Forscher entwickelten eine neue Erweiterung für RoPE, die die Grundfrequenz von RoPE anpasst und die Aufmerksamkeitslogits skaliert, um eine effiziente Anpassung an ein größeres Kontextfenster zu ermöglichen. Ihre Methode demonstrierte eine überlegene Leistung in Feinabstimmung und Robustheit über verschiedene Kontextfenstergrößen hinweg bei kontextintensiven Aufgaben. Sie konnten das Kontextfenster von LLaMA-2-7B-Chat auf 16.384 mit nur 100 Beispielen und 6 Trainingsschritten erweitern, was eine außergewöhnliche Effizienz zeigt. Darüber hinaus untersuchten sie, wie sich die Zusammensetzung der Daten und die Trainingscurricula auf die Erweiterung des Kontextfensters für spezifische Aufgaben auswirken.
Die aktuellen Entwicklungen im Bereich der LLMs zeigen deutlich, dass die Erweiterung des Kontextfensters nicht nur eine technische Herausforderung darstellt, sondern auch neue Möglichkeiten für die Anwendung von KI in Bereichen eröffnet, in denen lange Texte und komplexere Verständnisaufgaben gefragt sind. Angesichts der rasanten Fortschritte in diesem Bereich ist es wahrscheinlich, dass wir in naher Zukunft weitere bedeutende Durchbrüche erleben werden.