Großsprachmodelle auf dem Prüfstand: Potenziale und Grenzen der multilingualen KI-Zukunft

Kategorien:

No items found.

Freigegeben:

June 14, 2024

In den letzten Jahren haben Großsprachmodelle (Large Language Models, LLMs), wie das prominente Beispiel ChatGPT, beeindruckende Fähigkeiten in der Verarbeitung und Generierung natürlicher Sprache gezeigt. Diese Modelle, die auf umfangreichen Datensätzen trainiert wurden, sind in der Lage, komplexe Aufgaben in einer Vielzahl von Bereichen zu bewältigen und bieten faszinierende Möglichkeiten für Forschung und Entwicklung im Bereich der Künstlichen Intelligenz (KI).

Während Modelle wie ChatGPT in der englischen Sprache hervorragende Ergebnisse erzielen, besteht eine signifikante Herausforderung darin, diese Leistungsfähigkeit auf andere Sprachen zu übertragen. Der Großteil der LLMs wird hauptsächlich auf Korpora trainiert, die von englischsprachigen Inhalten dominiert werden. Dies schränkt ihre Leistung in anderen Sprachen ein und erfordert Anstrengungen, um ihre Fähigkeiten auf nicht-englische Sprachen zu übertragen.

Eine umfangreiche empirische Untersuchung, die auf dem LLM LLaMA basiert, hat über 1440 GPU-Stunden angesammelt, um zu erforschen, wie die Fähigkeiten zur Sprachgenerierung und Befolgung von Anweisungen effektiv auf eine nicht-englische Sprache übertragen werden können. Im Rahmen dieser Studie wurden Schlüsselfaktoren wie Vokabularerweiterung, weiteres Vortraining und Anweisungstuning analysiert. Die Evaluation der Modelle erfolgte unter Verwendung von vier standardisierten Testbenchmarks: C-Eval, MMLU, AGI-Eval und GAOKAO-Bench.

Um die Qualität der Modellantworten zu bewerten, wurden Aspekte wie Genauigkeit, Flüssigkeit, Informativität, logische Kohärenz und Unschädlichkeit in Betracht gezogen. Dafür wurde LLM-Eval eingesetzt, eine Benchmark, die Anweisungsaufgaben aus 17 verschiedenen Kategorien umfasst. Die Ergebnisse der Evaluation zeigen, dass eine vergleichbare Leistung zu den neuesten Transfermodellen mit weniger als 1% der Vortrainingsdaten erzielt werden kann, sowohl in Bezug auf Wissensausrichtung als auch Antwortqualität.

Darüber hinaus zeigen die experimentellen Ergebnisse über dreizehn ressourcenarme Sprachen ähnliche Trends. Es wird erwartet, dass die durch die Experimente aufgedeckten Erkenntnisse der Gemeinschaft helfen werden, nicht-englische LLMs zu entwickeln.

Ein weiterer Forschungsstrang evaluiert ChatGPT über mehrere Aufgaben in 37 verschiedenen Sprachen mit unterschiedlichen Ressourcenniveaus. Hierbei wird auch das Zero-Shot-Learning-Setting für ChatGPT berücksichtigt, um die Reproduzierbarkeit zu verbessern und die Interaktionen allgemeiner Nutzer besser zu simulieren. Die umfangreichen experimentellen Ergebnisse zeigen eine schlechtere Leistung von ChatGPT in unterschiedlichen NLP-Aufgaben und Sprachen, was auf einen Bedarf an weiterer Forschung zur Entwicklung besserer Modelle und eines besseren Verständnisses für multilinguales Lernen hinweist.

Neben reinen Textdaten gibt es viele reale Szenarien, in denen Textdaten mit reichhaltigen Strukturinformationen in Form von Graphen verbunden sind oder in denen Graphdaten mit reichhaltigen Textinformationen gepaart sind. Obwohl LLMs ihre reine textbasierte Schlussfolgerungsfähigkeit gezeigt haben, ist es noch unerforscht, ob diese Fähigkeit auf Szenarien mit Graphen (also graphenbasiertes Schlussfolgern) übertragen werden kann. In dieser Hinsicht bietet eine systematische Übersicht über Szenarien und Techniken, die mit Großsprachmodellen auf Graphen in Zusammenhang stehen, wertvolle Einblicke.

Die LLMs stehen jedoch auch vor Herausforderungen in Bezug auf die Werkzeugnutzung, d.h. die Verwendung externer Werkzeuge (APIs), um menschliche Anweisungen zu erfüllen. Das vorgestellte ToolLLM ist ein allgemeines Rahmenwerk für die Werkzeugnutzung, das Datenerstellung, Modelltraining und Evaluation umfasst. Die mit ChatGPT automatisch erstellte ToolBench, ein Anweisungstuning-Datensatz für die Werkzeugnutzung, zeigt, dass LLMs eine beachtliche Fähigkeit zur Ausführung komplexer Anweisungen besitzen und sich auf ungesehene APIs generalisieren können.

Abschließend ist festzuhalten, dass trotz der beeindruckenden Fortschritte in der Entwicklung von LLMs, wie GPT-4, und ihrer Anwendung in der Softwareentwicklung, ethische und gesellschaftliche Fragen sowie technologische Herausforderungen bestehen bleiben. Diese reichen von der Weitergabe von Vorurteilen in den Trainingsdaten über das Potenzial zur Verdrängung von Arbeitsplätzen bis hin zu Fehlern und "Halluzinationen", die durch die Modelle ohne Vorwarnung erzeugt werden können. Die Weiterentwicklung und Verfeinerung von LLMs sowie der Einsatz von erklärbarer KI (Explainable AI, XAI) sind entscheidend, um diese Herausforderungen anzugehen und das Vertrauen in die Zuverlässigkeit von LLM-Ergebnissen zu stärken. Die Schulung von Menschen im Umgang mit ML-Anwendungen ist ebenfalls wesentlich, um das Bewusstsein für die Macht und vor allem die Grenzen von ML zu schärfen.

Die KI-Technologie kann einige der diskutierten Einschränkungen und Herausforderungen bewältigen und gleichzeitig den Weg für zukünftige Fortschritte in der künstlichen Intelligenz ebnen. Unternehmen wie Mindverse, die als KI-Partner agieren und maßgeschneiderte Lösungen wie Chatbots, Voicebots, KI-Suchmaschinen, Wissenssysteme und vieles mehr entwickeln, spielen eine wichtige Rolle in diesem Fortschritt.

Was bedeutet das?

No items found.