Effizienzsteigerung in der KI: Multi-Token-Prädiktion revolutioniert große Sprachmodelle

Kategorien:
No items found.
Freigegeben:
July 4, 2024

Neuer Ansatz zur Verbesserung und Beschleunigung von Großen Sprachmodellen: Multi-Token-Prädiktion

Im April 2024 veröffentlichte Meta eine bahnbrechende Forschungsarbeit über einen neuen Ansatz zur Schulung großer Sprachmodelle (LLMs), der eine effizientere und schnellere Leistung durch die Verwendung der Multi-Token-Prädiktion ermöglicht. Diese Methodik verspricht erhebliche Verbesserungen bei der Effizienz und Genauigkeit von LLMs und eröffnet neue Möglichkeiten für deren Anwendung, insbesondere bei der Code-Vervollständigung. Die vortrainierten Modelle, die auf dieser neuen Methode basieren, wurden nun auf der Plattform Hugging Face zur Verfügung gestellt, um die weitere Erforschung durch die Forschungsgemeinschaft zu unterstützen.

Die Grundlagen der Multi-Token-Prädiktion

Traditionell werden große Sprachmodelle wie GPT und Llama mit einem Verlust durch die Vorhersage des nächsten Tokens trainiert. Das bedeutet, dass das Modell darauf trainiert wird, das nächste Wort in einer Sequenz vorherzusagen, basierend auf den vorhergehenden Wörtern. Dieser Ansatz hat jedoch Einschränkungen, insbesondere wenn es darum geht, langfristige Abhängigkeiten zu erfassen und die Effizienz der Proben zu maximieren. Meta schlägt in ihrer neuen Arbeit vor, dass die Schulung von Sprachmodellen zur gleichzeitigen Vorhersage mehrerer zukünftiger Tokens zu einer höheren Probeneffizienz führt.

Im Detail bedeutet dies, dass das Modell an jeder Position im Trainingskorpus aufgefordert wird, die folgenden n Tokens mithilfe von n unabhängigen Ausgabeköpfen vorherzusagen, die auf einem gemeinsamen Modellrumpf basieren. Diese Multi-Token-Prädiktion wird als zusätzliche Trainingsaufgabe betrachtet und zeigt verbesserte Downstream-Fähigkeiten ohne zusätzlichen Trainingsaufwand für sowohl Code- als auch natürliche Sprachmodelle.

Die Vorteile der Multi-Token-Prädiktion

Der neue Ansatz zeigt insbesondere bei größeren Modellgrößen deutliche Vorteile. Bei generativen Benchmarks wie der Code-Generierung übertreffen die Modelle von Meta durchgehend starke Baselines um mehrere Prozentpunkte. So lösen die 13 Milliarden Parameter umfassenden Modelle von Meta 12 % mehr Aufgaben auf HumanEval und 17 % mehr auf MBPP im Vergleich zu Modellen, die mit der herkömmlichen Next-Token-Prädiktion trainiert wurden.

Zusätzlich zu den Leistungsverbesserungen in spezifischen Aufgabenbereichen bietet die Multi-Token-Prädiktion auch eine signifikante Geschwindigkeitssteigerung. Modelle, die mit einer 4-Token-Prädiktion trainiert wurden, sind bis zu dreimal schneller bei der Inferenz, selbst bei großen Batch-Größen. Diese Geschwindigkeitsvorteile sind besonders nützlich in Anwendungen, die schnelle Reaktionszeiten erfordern.

Anwendungsbereiche und Implikationen

Die Vorteile der Multi-Token-Prädiktion sind besonders ausgeprägt bei der Code-Generierung, wo die Modelle von Meta in der Lage sind, komplexe algorithmische Aufgaben effizienter zu lösen. Diese Verbesserungen könnten weitreichende Auswirkungen auf die Entwicklung von Software und die Automatisierung von Programmieraufgaben haben. Darüber hinaus zeigen Experimente mit kleinen algorithmischen Aufgaben, dass die Multi-Token-Prädiktion die Entwicklung von Induktionsköpfen und algorithmischen Denkfähigkeiten fördert.

Verfügbarkeit und Weiterentwicklung

Um die weitere Erforschung dieses Ansatzes zu fördern, hat Meta die vortrainierten Modelle zur Code-Vervollständigung, die auf der Multi-Token-Prädiktion basieren, auf der Plattform Hugging Face veröffentlicht. Diese Freigabe ermöglicht es Forschern und Entwicklern, die Modelle zu nutzen und weiterzuentwickeln, um neue Anwendungsfälle zu erforschen und die Methodik weiter zu verbessern.

Schlussfolgerung

Die Einführung der Multi-Token-Prädiktion stellt einen bedeutenden Fortschritt in der Entwicklung großer Sprachmodelle dar. Durch die Verbesserung der Probeneffizienz und der Inferenzgeschwindigkeit bietet dieser Ansatz erhebliche Vorteile für eine Vielzahl von Anwendungen, insbesondere im Bereich der Code-Generierung. Die Veröffentlichung der vortrainierten Modelle auf Hugging Face ermöglicht es der Forschungsgemeinschaft, diesen innovativen Ansatz weiter zu erforschen und zu optimieren.

Es bleibt spannend zu beobachten, wie sich diese Methodik in der Praxis bewährt und welche neuen Möglichkeiten sie für die Entwicklung und Anwendung großer Sprachmodelle eröffnet.

Bibliographie



- https://arxiv.org/abs/2404.19737
- https://huggingface.co/papers/2404.19737
- https://arxiv.org/pdf/2404.19737
- https://huggingface.co/facebook/multi-token-prediction
- http://amatria.in/blog/postpretraining
- https://lingming.cs.illinois.edu/publications/issta2022.pdf
- https://www.researchgate.net/publication/354146496_Pre-Trained_Models_Past_Present_and_Future
- https://www.researchgate.net/publication/351019939_Efficient_pre-training_objectives_for_Transformers


Was bedeutet das?