Große Sprachmodelle auf dem Prüfstand: Fortschritte und Herausforderungen in der KI-Forschung

Kategorien:

No items found.

Freigegeben:

June 14, 2024

In den letzten Jahren haben große Sprachmodelle (Large Language Models, LLMs) beeindruckende Fortschritte gemacht und Aufgaben gelöst, die einst als Domäne menschlicher Intelligenz galten. Diese Modelle sind in der Lage, komplexe Aufgaben zu bewältigen, die logisches Denken, Verständnis und Schlussfolgerungen erfordern. Trotz ihrer beeindruckenden Leistungen stoßen sie jedoch bei Benchmarks, die generelle Intelligenz messen, wie zum Beispiel dem Abstraction and Reasoning Corpus (ARC), immer noch auf erhebliche Schwierigkeiten.

Um diese Herausforderung zu meistern, haben Forscher einen neuen Ansatz namens Code Iteration (CodeIt) entwickelt, der als skalierbare Methode zur Selbstverbesserung von Sprachmodellen dient. Diese Methode verwendet eine Kombination aus Programm-Auswahl und Hindsight Relabeling sowie Lernen durch priorisierte Erfahrungswiederholung. Dabei werden die Ziele einer Aufgabe (also die gewünschten Programmausgaben basierend auf Eingaben) nachträglich an die tatsächlich produzierten Ausgaben der ausgewählten Programme angepasst. Dies ermöglicht es dem Modell, effektiv mit der extremen Seltenheit von Belohnungen in der Programmsynthese umzugehen. Angewandt auf den ARC-Datensatz zeigt die Methode, dass priorisierte Hindsight-Replay in Kombination mit Vor-Training und Datenanreicherung zu erfolgreicher Inter-Task-Verallgemeinerung führt. CodeIt löst 15% der ARC-Bewertungsaufgaben und erzielt damit eine Spitzenleistung, die über den bestehenden neuronalen und symbolischen Baselines liegt.

Ein weiterer Forschungsansatz, der sich mit der Verbesserung von LLMs beschäftigt, ist die Entwicklung von Rahmenwerken, die automatisierte natürlichsprachliche Begründungen generieren, um die Leistung dieser Modelle zu verstärken. Das Rahmenwerk namens AMPLIFY nutzt post-hoc Erklärungsmethoden, um Einflusspunkte (Erklärungen) zu identifizieren, die zeigen, wie sehr einzelne Eingabemerkmale die Vorhersagen des Modells beeinflussen. Durch die Einbettung dieser Einsichten in automatisch generierte Begründungen können LLMs korrigierende Signale erhalten, die ihre Vorhersagegenauigkeit um etwa 10-25% über ein breites Spektrum von Aufgaben hinweg verbessern. Dies stellt einen der ersten Versuche dar, das Potenzial von post-hoc Erklärungen als wertvolles Werkzeug zur Effektivitätssteigerung von LLMs zu demonstrieren.

Zusätzlich zu diesen Ansätzen gibt es Forschungen, die sich mit der praktischen Anwendung von LLMs in verschiedenen Bereichen befassen, wie zum Beispiel im autonomen Fahren. In diesem Bereich werden LLMs als Entscheidungsträger für komplexe Fahrszenarien eingesetzt, indem sie kognitive Pfade für umfassendes Reasoning nutzen und Algorithmen entwickeln, um LLM-Entscheidungen in handlungsfähige Fahranweisungen zu übersetzen.

Diese technologischen Fortschritte sind jedoch nicht ohne Herausforderungen. Die Energiekosten für Inferenz bei LLMs, die bereits eine erhebliche Rechenlast darstellen, werden häufig unterschätzt. Untersuchungen zur Leistungs- und Energieausnutzung der Inferenz mit LLMs sind daher von entscheidender Bedeutung, um Kosten zu sparen, die Leistung zu skalieren und die Hardware effizient zu nutzen.

Darüber hinaus stellt sich die Frage, wie LLMs in Bildungssystemen eingesetzt werden können, vor allem in Entwicklungsländern mit begrenzten Ressourcen. Ein Beispiel ist ein AI-Chatbot, der Lehrern in Sierra Leone dabei hilft, ihre Unterrichtsmethoden zu verbessern. Solche Systeme könnten einen bedeutenden Einfluss auf die Bildung in Ländern mit niedrigem Einkommen haben.

Insgesamt zeigen diese Forschungen, dass LLMs nicht nur die Landschaft künstlicher Intelligenz verändern, sondern auch das Potenzial haben, Lösungen für reale Probleme in verschiedenen Sektoren zu bieten. Ob in der Bildung, im autonomen Fahren oder in anderen Bereichen - LLMs könnten als mächtige Werkzeuge fungieren, um die menschliche Entscheidungsfindung zu unterstützen und zu verbessern.

Quellen:

- AK, @_akhaliq: CodeIt Self-Improving Language Models with Prioritized Hindsight Replay. Verfügbar unter: https://huggingface.co/papers/2402.04858
- Krishna, S., Ma, J., Slack, D. Z., Ghandeharioun, A., Singh, S., Lakkaraju, H.: Post Hoc Explanations of Language Models Can Improve Language Models. NeurIPS 2023. Verfügbar unter: https://openreview.net/forum?id=3H37XciUEv
- Shap, D.: Weekly Arxiv. Verfügbar unter: https://github.com/daveshap/weekly_arxiv/blob/main/output.md

Was bedeutet das?

No items found.