Fortschritte in KI und maschinellem Lernen Neue Methoden erweitern die Grenzen von Sprachmodellen

Kategorien:
No items found.
Freigegeben:

In der Welt der Künstlichen Intelligenz und des maschinellen Lernens schreitet die Forschung mit bemerkenswerter Geschwindigkeit voran. Ein aktuelles Beispiel dafür ist die Erweiterung der Kontextfenster von Großen Sprachmodellen (Large Language Models, LLMs), die eine signifikante Verbesserung der Leistungsfähigkeit dieser Modelle verspricht. Insbesondere auf der Plattform Hugging Face, einem führenden Hub für Open-Source-KI-Modelle, wurden jüngst mehrere Forschungsarbeiten veröffentlicht, die sich diesem Thema widmen und neue Wege aufzeigen, wie LLMs auch mit längeren Texten effizient umgehen können.

Eines der Kernprobleme, mit denen sich LLMs wie GPT-NeoX, PaLM oder LLaMA konfrontiert sehen, ist ihre eingeschränkte Fähigkeit, Kontext über ihr vorab trainiertes Fenster hinaus zu extrapolieren. Diese Einschränkung beeinträchtigt ihre Anwendbarkeit in Aufgaben, die längere Eingaben erfordern. Forscher sind daher bestrebt, Methoden zu entwickeln, die das Kontextfenster dieser Modelle erweitern können, ohne dabei auf umfangreiche Ressourcen zurückgreifen zu müssen.

Eine vielversprechende Methode, die in einer Studie von Yikai Zhang, Junlong Li und Pengfei Liu vorgestellt wurde, ist die Modifikation des Rotary Position Embedding (RoPE). RoPE ist eine beliebte Methode zur Kodierung von Positionsinformationen, die von zahlreichen bekannten LLMs genutzt wird. Die Forschergruppe hat eine Erweiterung vorgeschlagen, die auf einer Anpassung der Basisfrequenz von RoPE und einer Skalierung der Aufmerksamkeits-Logits basiert. Diese Kombination ermöglicht es den LLMs, sich effizient an ein größeres Kontextfenster anzupassen. In ihrer Arbeit konnten sie die Effektivität ihrer Methode nachweisen, indem sie das Kontextfenster eines LLaMA-2-7B-Chat-Modells auf 16.384 erweiterten, und das mit nur 100 Beispielen und sechs Trainingsschritten – ein Beweis für außergewöhnliche Effizienz.

Ein weiterer Ansatz, der in der Forschung Beachtung fand, ist die Position Interpolation (PI), die von Shouyuan Chen und Kollegen entwickelt wurde. PI ermöglicht es, die Kontextfenstergrößen von RoPE-basierten LLMs auf bis zu 32.768 zu erweitern, indem die Eingabepositionsindizes linear herunter skaliert werden, um sie an die ursprüngliche Kontextfenstergröße anzupassen. Diese Methode bewahrt die Qualität der Modelle auf Aufgaben innerhalb ihres ursprünglichen Kontextfensters und zeigt, dass die Obergrenze der Interpolation deutlich stabiler ist als die der Extrapolation.

Ein dritter Ansatz ist das Positional Skip-wisE (PoSE) Training, das darauf abzielt, die Trainingseffizienz zu erhöhen, indem es die Trainingslänge vom Zielkontextfenster entkoppelt. PoSE teilt das ursprüngliche Kontextfenster in mehrere Abschnitte und fügt dann bestimmte Verzerrungsterme hinzu, um die Positionen innerhalb der Abschnitte zu manipulieren. Dadurch kann das Modell alle Positionen innerhalb der Zielkontextlänge anpassen. In Experimenten konnte gezeigt werden, dass PoSE den Aufwand an Speicher und Zeit gegenüber dem vollständigen Training stark reduziert, mit minimalen Auswirkungen auf die Leistung.

Interessanterweise öffnen diese Forschungsergebnisse die Tür für eine Vielzahl von Anwendungen, die von verbesserten Übersetzungsdiensten bis hin zu fortgeschritteneren Dialogsystemen reichen könnten. Darüber hinaus legen sie nahe, dass die Feinabstimmung von LLMs mit längeren Konversationen ein guter Ausgangspunkt sein könnte.

Die Kombination dieser neuen Techniken könnte in Zukunft zu einem Paradigmenwechsel in der Art und Weise führen, wie wir mit KI interagieren und sie in unserem täglichen Leben nutzen. Mit der kontinuierlichen Entwicklung und Verfeinerung dieser Methoden stehen wir möglicherweise am Anfang einer neuen Ära der Künstlichen Intelligenz, in der LLMs nicht nur mit größeren Textmengen umgehen können, sondern auch ein tieferes Verständnis für die Komplexität menschlicher Sprache entwickeln.

Was bedeutet das?
No items found.