KI-Sprachmodelle im Fokus: Verstehen sie wirklich den Kontext?

Kategorien:

No items found.

Freigegeben:

June 14, 2024

In der Welt der künstlichen Intelligenz (KI) rückt das Verständnis menschlicher Sprache immer stärker in den Mittelpunkt wissenschaftlicher Untersuchungen. Große Sprachmodelle (Large Language Models, LLMs) stehen dabei besonders im Fokus, da ihre Fähigkeit, den Kontext zu verstehen, entscheidend für ihre Leistungsfähigkeit ist. In diesem Zusammenhang hat Apple kürzlich eine Studie präsentiert, die untersucht, inwieweit LLMs in der Lage sind, den Kontext zu erfassen und zu verarbeiten.

Der Kern der Sprachverarbeitung liegt im Verständnis des Kontextes – ein Aspekt, der die menschliche Kommunikation prägt und für die KI von großer Bedeutung ist. LLMs haben in dieser Hinsicht beeindruckende Fortschritte gemacht und zeigen, dass sie in vielen Fällen den Kontext verstehen und angemessen reagieren können. Die Bewertung dieser Modelle umfasst verschiedene Bereiche der Verarbeitung natürlicher Sprache (Natural Language Processing, NLP), jedoch wurde der linguistischen Fähigkeit, kontextuelle Merkmale zu verstehen, bisher nur begrenzt Aufmerksamkeit geschenkt.

Apple hat in seiner Studie einen Benchmark für das Verständnis von Kontext eingeführt, indem bestehende Datensätze angepasst wurden, um die Evaluierung generativer Modelle zu ermöglichen. Dieser Benchmark umfasst vier unterschiedliche Aufgaben und neun Datensätze, die alle mit Prompts ausgestattet sind, die darauf ausgelegt sind, die Fähigkeit der Modelle zur Kontexterfassung zu prüfen.

Zunächst wurde die Leistung von LLMs unter dem Szenario des In-Context-Learnings während der Vorverarbeitung bewertet. Die experimentellen Ergebnisse deuten darauf hin, dass vorab trainierte dichte Modelle Schwierigkeiten haben, nuanciertere kontextuelle Merkmale zu verstehen, insbesondere im Vergleich zu den neuesten feinabgestimmten Modellen.

Darüber hinaus gewinnt die Komprimierung von LLMs zunehmend an Bedeutung, sowohl in der Forschung als auch in praktischen Anwendungen. In diesem Zusammenhang wurde die Kontextverständnisfähigkeit von quantisierten Modellen in In-Context-Learning-Szenarien beurteilt. Dabei wurde festgestellt, dass eine 3-Bit-Quantisierung nach dem Training zu unterschiedlichen Leistungseinbußen in unserem Benchmark führt. Eine umfangreiche Analyse dieser Szenarien wurde durchgeführt, um die experimentellen Ergebnisse zu untermauern.

Ein weiteres Papier, LooGLE genannt, präsentiert einen Benchmark für die Langkontext-Verständnisfähigkeit von LLMs. LooGLE zeichnet sich durch relativ neue Dokumente aus, die nach 2022 verfasst wurden und über 24.000 Token pro Dokument sowie 6.000 neu generierte Fragen aus verschiedenen Domänen umfassen. Menschliche Annotatoren haben mehr als 1.100 hochwertige Frage-Antwort-Paare sorgfältig erstellt, um den Anforderungen an langanhaltende Abhängigkeiten gerecht zu werden. Diese Paare wurden einer gründlichen gegenseitigen Überprüfung unterzogen, was die präziseste Bewertung der Langabhängigkeitsfähigkeiten von LLMs ermöglichte.

Die Bewertung von acht führenden LLMs anhand von LooGLE brachte wichtige Erkenntnisse: Kommerzielle Modelle schnitten besser ab als Open-Source-Modelle; LLMs zeigten hohe Leistungen bei Aufgaben mit kurzen Abhängigkeiten wie kurzen Frage-Antwort- und Lückentext-Aufgaben, hatten aber Schwierigkeiten mit komplexeren Langabhängigkeitsaufgaben; In-Context-Learning und die Verkettung von Gedanken brachten nur marginale Verbesserungen; Techniken zur Informationsbeschaffung zeigten deutliche Vorteile bei kurzen Frage-Antwort-Aufgaben, während Strategien zur Erweiterung der Kontextfensterlänge nur begrenzten Einfluss auf das Verständnis von Langkontexten hatten.

Darüber hinaus untersuchte eine weitere Studie die Nutzung von LLMs zur Ausnutzung von Unsicherheiten in automatischen Spracherkennungssystemen (ASR). Der Ansatz bestand darin, das LLM mit einer n-Besten-Liste von ASR-Hypothesen zu prompten, statt sich nur auf eine fehleranfällige 1-Beste-Hypothese zu verlassen. Dieser Ansatz erwies sich als effizient, um ASR-Unsicherheiten mittels LLMs für sprachbasierte Anwendungen zu nutzen.

Die Untersuchungen zeigen, dass LLMs zwar ein hohes Maß an Kontextverständnis aufweisen, aber immer noch Herausforderungen bei komplexen Aufgaben bestehen. Die Entwicklung von LLMs, die ein "wahres Langkontextverständnis" erreichen, bleibt eine wichtige Aufgabe für zukünftige Forschungen. Die Arbeit von Apple und anderen Forschungsinstitutionen trägt maßgeblich dazu bei, die Grenzen dessen, was KI erreichen kann, weiter zu verschieben.

Was bedeutet das?

No items found.