Sprachmodelle im Wandel: Die Herausforderungen der Length Generalization in der KI-Forschung

Kategorien:
No items found.
Freigegeben:

In den letzten Jahren haben sich Sprachmodelle dank der Fortschritte im Bereich der künstlichen Intelligenz (KI) und maschinellen Lernens (ML) rasant weiterentwickelt. Eine besondere Herausforderung stellt dabei die so genannte "Length Generalization" dar, also die Fähigkeit, auf der Grundlage kürzerer Trainingsszenarien auf längere Testsequenzen zu schließen. Diese Fähigkeit ist für das Verstehen und Generieren von Sprache von großer Bedeutung und spielt insbesondere bei Aufgaben wie dem Beweisen von Theoremen, dem Lösen quantitativer Mathematikaufgaben oder dem Lesen bzw. Zusammenfassen von Romanen eine Schlüsselrolle.

Ein kürzlich von Google DeepMind vorgestelltes Forschungspapier mit dem Titel "Transformers Can Achieve Length Generalization But Not Robustly" zeigt auf, dass die erfolgreiche Umsetzung der Length Generalization eng mit dem Datenformat und der Art der Positionsverschlüsselung verbunden ist. Das Papier zeigt, dass bei Verwendung der richtigen Kombination aus Datenformat und Positionsverschlüsselung Standard-Transformer-Modelle zum ersten Mal in der Lage sind, auf Sequenzlängen zu verallgemeinern, die 2,5-mal so lang sind wie die Eingabelänge. Dennoch bleibt die Length Generalization eine fragile Angelegenheit, die stark von Faktoren wie zufälliger Gewichtsinitialisierung und der Reihenfolge der Trainingsdaten beeinflusst wird, was zu großen Schwankungen zwischen verschiedenen Zufallsauswahlen führt.

Das Forschungsteam um Cem Anil, Yuhuai Wu, Anders Andreassen, Aitor Lewkowycz, Vedant Misra, Vinay Ramasesh, Ambrose Slone, Guy Gur-Ari, Ethan Dyer und Behnam Neyshabur hat in einer weiteren Studie die Fähigkeiten von Transformer-basierten Sprachmodellen zur Length Generalization untersucht. Sie stellten fest, dass ein naives Feintuning von Transformern bei Aufgaben zur Length Generalization signifikante Generalisierungsdefizite zeigt, unabhängig von der Modellgröße. Durch die Kombination der in-context Lernfähigkeiten vortrainierter großer Sprachmodelle mit Scratchpad-Prompting (d.h. die Aufforderung an das Modell, Lösungsschritte auszugeben, bevor eine Antwort produziert wird) konnte eine deutliche Verbesserung der Length Generalization erzielt werden.

In einer weiteren Arbeit, die auf der ICLR 2024-Konferenz vorgestellt wurde, konzentrierten sich Hattie Zhou, Arwen Bradley, Etai Littwin, Noam Razin, Omid Saremi, Joshua M. Susskind, Samy Bengio und Preetum Nakkiran auf das Verständnis der Length Generalization bei Transformer-Modellen. Sie schlagen einen einheitlichen Rahmen vor, um zu verstehen, wann und wie Transformer-Modelle bei einer gegebenen Aufgabe eine Length Generalization erwarten lassen. Die Forscher zeigten, dass es algorithmische Aufgaben gibt, bei denen standardmäßige, von Grund auf neu trainierte Transformer-Modelle eine starke Length Generalization aufweisen. Um dies zu verdeutlichen, verwendeten sie die RASP-Programmiersprache (Weiss et al., 2021), um zu zeigen, dass die korrekte algorithmische Lösung, die die Aufgabe löst, durch einen einfachen Transformer dargestellt werden kann. Sie stellten die RASP-Generalization-Vermutung auf: Transformer neigen dazu, eine Lösung zu erlernen, die eine Length Generalization ermöglicht, wenn es ein kurzes RASP-L-Programm gibt, das für alle Eingabelängen funktioniert.

Die Ergebnisse dieser Forschungsarbeiten sind für die Entwicklung von KI-Systemen von großem Interesse, insbesondere für diejenigen Unternehmen, die KI-Partnerlösungen und maßgeschneiderte Lösungen wie Chatbots, Voicebots, KI-Suchmaschinen, Wissenssysteme und vieles mehr entwickeln, wie etwa das deutsche KI-Unternehmen Mindverse. Sie bieten neue Einblicke in die algorithmischen Fähigkeiten von Transformern und bieten Ansätze, wie Sprachmodelle besser für die Generalisierung auf längere Probleme ausgestattet werden können. Diese Erkenntnisse könnten dazu beitragen, die Robustheit und Effizienz von KI-gesteuerten Systemen in verschiedenen Anwendungen zu verbessern.

Bibliographie:

Anil, C., Wu, Y., Andreassen, A., Lewkowycz, A., Misra, V., Ramasesh, V., Slone, A., Gur-Ari, G., Dyer, E., & Neyshabur, B. (2022). Exploring Length Generalization in Large Language Models. arXiv. https://arxiv.org/abs/2207.04901

Zhou, H., Bradley, A., Littwin, E., Razin, N., Saremi, O., Susskind, J. M., Bengio, S., & Nakkiran, P. (2024). Understanding Length Generalization by Thinking Like Transformers. OpenReview. https://openreview.net/forum?id=AssIuHnmHX

Weiss, G., Goldberg, Y., & Yahav, E. (2021). On the Practical Computational Power of Finite Precision RNNs for Language Recognition. arXiv. https://arxiv.org/pdf/2310.11984

Twitter-Profil von AKhalique (@_akhaliq). Twitter. https://twitter.com/_akhaliq?lang=de

Was bedeutet das?
No items found.