Fortschritte in KI und ML: Wie In-Context Learning die Verarbeitung natürlicher Sprache verändert

Kategorien:
No items found.
Freigegeben:
June 14, 2024

In den letzten Jahren haben künstliche Intelligenz (KI) und maschinelles Lernen (ML) erstaunliche Fortschritte gemacht, insbesondere im Bereich der Verarbeitung natürlicher Sprache (Natural Language Processing, NLP). Große Sprachmodelle (Large Language Models, LLMs) spielen dabei eine zentrale Rolle, da sie in der Lage sind, menschliche Sprache zu verstehen, zu generieren und in verschiedenen Kontexten zu nutzen. Eine der neuesten Entwicklungen in diesem Bereich ist das sogenannte In-Context Learning (ICL), eine Methode, die es LLMs ermöglicht, anhand weniger Beispiele neue Aufgaben zu erlernen.

Das In-Context Learning, auch Few-Shot Prompting genannt, hat sich als Standardmethode etabliert, um LLMs für nachgelagerte Aufgaben anzupassen. Dabei lernt das Modell aus einigen wenigen Eingabe-Ausgabe-Beispielen. Bisher haben sich ICL-basierte Ansätze jedoch nur auf korrekte Eingabe-Ausgabe-Paare konzentriert. Eine neue Forschungsarbeit, die dieses Paradigma überdenkt, zeigt, dass es möglich ist, aus diesen wenigen Beispielen noch mehr zu lernen. Das Paper stellt die sogenannten Learning Principles (LEAP) vor: Zuerst wird das Modell absichtlich dazu gebracht, Fehler bei diesen wenigen Beispielen zu machen; dann werden diese Fehler reflektiert und es werden explizite aufgabenspezifische "Prinzipien" daraus gelernt, die helfen, ähnliche Probleme zu lösen und gängige Fehler zu vermeiden. Schließlich wird das Modell aufgefordert, unbeantwortete Testfragen zu beantworten, indem es die ursprünglichen Few-Shot-Beispiele und diese gelernten allgemeinen Prinzipien verwendet.

LEAP wurde auf einer breiten Palette von Benchmarks evaluiert, einschließlich Multi-Hop-Fragenbeantwortung (Hotpot QA), textueller Fragenbeantwortung (DROP), Big-Bench Hard Reasoning und Mathematikproblemen (GSM8K und MATH). In all diesen Benchmarks verbessert LEAP die stärksten verfügbaren LLMs wie GPT-3.5-turbo, GPT-4, GPT-4 turbo und Claude-2.1. Zum Beispiel verbessert LEAP die standardmäßige Few-Shot-Aufforderung unter Verwendung von GPT-4 um 7,5% in DROP und um 3,3% in HotpotQA. Wichtig ist, dass LEAP keine weiteren Eingaben oder Beispiele benötigt als die standardmäßigen Few-Shot-Prompting-Einstellungen.

Der Ansatz des In-Context Learnings ist besonders bemerkenswert, da er ohne ein Gradienten-basiertes Training auskommt, was in der traditionellen maschinellen Lernumgebung üblich ist. Stattdessen nutzt das Modell bereits vorhandenes Wissen und passt sich durch die Verarbeitung der Beispiele an neue Aufgaben an. Diese Technik weist jedoch auch erhebliche Rechen-, Speicher- und Speicherkosten auf, da bei jeder Vorhersage alle Trainingsbeispiele verarbeitet werden müssen. Parameter-effiziente Feinabstimmung (Parameter-Efficient Fine-Tuning, PEFT), wie beispielsweise Adaptermodule, Prompt Tuning und spärliche Aktualisierungsmethoden, bieten eine alternative Methode, bei der nur eine kleine Menge an Parametern trainiert wird, um einem Modell die Ausführung einer neuen Aufgabe zu ermöglichen. Eine kürzlich durchgeführte Studie vergleicht Few-Shot ICL und PEFT und zeigt, dass letzteres nicht nur eine bessere Genauigkeit, sondern auch deutlich geringere Rechenkosten bietet.

Eine weitere wichtige Methode im Kontext des In-Context Learnings ist die sogenannte Skill-Based Few-Shot-Auswahl. Diese Technik wählt geeignete Beispiele für jede Testinstanz separat aus, was für das In-Context Learning von großer Bedeutung ist. Der Hauptvorteil dieser Methode besteht darin, dass sie das Problem angeht, dass vorhandene Methoden, die auf vorab trainierten Einbettungen basieren, leicht durch Oberflächenmerkmale der natürlichen Sprache beeinflusst werden können, die für die Zielstellung nicht wichtig sind. Darüber hinaus erfordert sie kein Training oder Feintuning von Modellen, was sie für häufig erweiterte oder geänderte Beispielbanken geeignet macht. Der Schlüssel liegt darin, die Eingaben, die in das Einbettungsmodell eingespeist werden, zu optimieren, anstatt das Modell selbst zu tunen.

Insgesamt zeigt sich, dass In-Context Learning ein robustes und effizientes Werkzeug für die Anpassung von LLMs an neue Aufgaben ist. Die Fähigkeit, aus Fehlern zu lernen und allgemeine Prinzipien zu extrahieren, könnte die Leistungsfähigkeit dieser Modelle weiter erhöhen. Dies ist ein spannendes Feld, das die Tür für eine Vielzahl von Anwendungen öffnet, von der automatisierten Inhaltserstellung bis hin zu anspruchsvollen Analyseaufgaben.

Literaturverzeichnis:
1. An et al. (2023), Skill-Based Few-Shot Selection for In-Context Learning, Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing. Verfügbar unter: https://aclanthology.org/2023.emnlp-main.831
2. Raffel et al. (2022), Few-Shot Parameter-Efficient Fine-Tuning is Better and Cheaper than In-Context Learning, arXiv:2205.05638. Verfügbar unter: https://arxiv.org/abs/2205.05638
3. Shah, D. (2023), What is In-context Learning, and how does it work: The Beginner’s Guide, Lakera AI blog. Verfügbar unter: https://www.lakera.ai/blog/what-is-in-context-learning
4. Akhaliq, A., In-Context Principle Learning from Mistakes, Verfügbar unter: https://huggingface.co/papers/2402.05403

Was bedeutet das?