Die rasante Entwicklung der Künstlichen Intelligenz (KI) und insbesondere der großen Sprachmodelle (LLMs) hat in den letzten Jahren viele Fortschritte gebracht. Ein zentraler Bestandteil dieser Modelle ist der Attention-Mechanismus, welcher es den Token in einer Sequenz ermöglicht, miteinander zu interagieren. Allerdings ist diese Interaktion positionsunabhängig, was die Notwendigkeit eines zusätzlichen Mechanismus zur Kodierung von Positionsinformationen hervorhebt.
Traditionelle Methoden der Positionskodierung (PE) wie die absolute und relative PE verwenden Token-Zählungen, um Positionen zu bestimmen. Diese Ansätze haben jedoch Schwierigkeiten, sich auf höhere Abstraktionsebenen zu verallgemeinern, wie z.B. das Adressieren des i-ten Satzes oder bestimmten Wörtern innerhalb eines Textes. Absolute PE zählt Token von Anfang einer Sequenz an, während relative PE rückwärts von der aktuellen Position zählt.
Ein gängiges Merkmal bestehender PE-Methoden ist die Verwendung von Token als Maßeinheit. Tokens können jedoch variabel sein und je nach Tokenisierungsverfahren ganze Wörter, Teile davon oder sogar einzelne Zeichen darstellen. Diese Positionsvarianz nimmt bei abstrakteren Elementen wie Sätzen zu, die von wenigen bis zu mehreren hundert Token umfassen können. Daher sind Token-Positionen nicht geeignet für allgemeine Positionsadressierungen, wie das Auffinden des i-ten Wortes oder Satzes.
Um diese Herausforderungen zu meistern, wurde die Contextual Position Encoding (CoPE) entwickelt. CoPE berücksichtigt den Kontext, indem es Positionen nur bei bestimmten Token erhöht, die vom Modell bestimmt werden. Dies ermöglicht eine kontextabhängige Positionsadressierung und kann verschiedene Ebenen der Positionsabstraktion gleichzeitig darstellen, von Token-Positionen bis hin zu Satz-Positionen. CoPE ermöglicht es somit, z.B. mit Token-Positionen auf die vorherigen Token zuzugreifen und gleichzeitig mit Satz-Positionen auf vorherige Sätze zuzugreifen, um ein besseres Verständnis des aktuellen Satzes zu erlangen.
CoPE wurde auf mehrere Testaufgaben wie Zählen, selektives Kopieren und Flip-Flop angewendet, bei denen es die Token-basierten PE-Methoden übertraf. Für die reale Anwendbarkeit wurde ein Sprachmodellierungsauftrag auf Wikipedia-Texten getestet, bei dem CoPE ebenfalls zu besseren Leistungen führte. Der gleiche Leistungsgewinn wurde auch beim Training auf Code beobachtet.
Die Einführung von CoPE hat in der KI-Community für Aufsehen gesorgt. Jason Weston von Meta AI veröffentlichte ein Papier, das diese neue Methode beschreibt. CoPE ermöglicht es Transformern, Zähl- und Kopieraufgaben zu lösen, die Standard-Transformer nicht bewältigen können, und verbessert die Perplexität bei der Sprachmodellierung und Codierungsaufgaben.
Die Contextual Position Encoding (CoPE) ist ein bedeutender Fortschritt im Bereich der Positionskodierung für Transformer-Modelle. Durch die Einbeziehung des Kontexts und die flexible Positionsadressierung bietet CoPE eine Lösung für viele der Einschränkungen bisheriger PE-Methoden. Diese Innovation könnte die Leistungsfähigkeit von LLMs in verschiedenen Anwendungen erheblich verbessern und neue Möglichkeiten für die Entwicklung und Implementierung von KI-Systemen eröffnen.
https://arxiv.org/abs/2405.18719
https://arxiv.org/html/2405.18719v1
https://artificialintelligencearticle.com/positional-encoding-in-the-transformer-model-by-sandaruwan-herath-data-science-and-machine-learning-apr-2024-2/
https://twitter.com/jeremyphoward?lang=de
https://www.linkedin.com/posts/manojkumar83_a-new-paper-from-meta-context-matters-activity-7201762161746980864-RZyJ
https://twitter.com/ylecun/status/1795985933998715217
https://www.inovex.de/de/blog/positional-encoding-everything-you-need-to-know/
https://www.linkedin.com/posts/tonyseale_i-predict-that-the-competition-to-become-activity-7159108348854898688-nz-X
https://www.researchgate.net/publication/325600753_News_recommender_systems_-_Survey_and_roads_ahead