Effizienzsteigerung und Präzisionsgewinn in der KI: Neue Methoden für Große Sprachmodelle

Kategorien:
No items found.
Freigegeben:
June 14, 2024

Artikel jetzt als Podcast anhören

In der Welt der Künstlichen Intelligenz (KI) ist die Entwicklung effizienter Werkzeuge und Methoden für das maschinelle Lernen und insbesondere für Große Sprachmodelle (LLMs) von zentraler Bedeutung. Diese Modelle sind in der Lage, menschliche Sprache zu verstehen und zu generieren, und sie finden Anwendung in einer Vielzahl von Bereichen, von der Beantwortung von Fragen bis hin zur Unterstützung bei komplexen Entscheidungsprozessen. Eines der Hauptziele in der Forschung und Entwicklung ist es, die Effizienz und Genauigkeit dieser Systeme kontinuierlich zu verbessern.

Ein aktuelles Forschungspapier von Meta präsentiert eine neue Methode, die unter dem Namen "Efficient Tool Use with Chain-of-Abstraction Reasoning" bekannt ist. Diese Methode verbessert nicht nur die Genauigkeit der Antworten von LLMs in mathematischen und Frage-Antwort-Domänen (Wiki QA), sondern steigert auch die Effizienz im Werkzeugeinsatz. Im Vergleich zu bisherigen Ansätzen, die auf Ketten von Gedanken (chain-of-thought) und werkzeugunterstützte Baselines setzen, zeigt die neue Methode eine durchschnittliche Verbesserung der Antwortgenauigkeit um etwa 6%. Darüber hinaus ist die Geschwindigkeit der Inferenz – also der Prozess, bei dem das Modell eine Antwort auf eine Eingabe generiert – im Durchschnitt um den Faktor 1,4 schneller als bei den bisherigen werkzeugunterstützten LLMs.

Dieser Fortschritt ist besonders bemerkenswert, da er auf in-distribution und out-of-distribution Testsets konsistent ist. "In-distribution" bedeutet, dass die Testbeispiele ähnlich zu den Beispielen sind, auf denen das Modell trainiert wurde. "Out-of-distribution" hingegen bezieht sich auf Testbeispiele, die sich von den Trainingsdaten unterscheiden und somit eine größere Herausforderung für das Modell darstellen.

Die von Meta vorgestellte Methode basiert auf der Idee, dass LLMs in der Lage sein sollten, Fragen zu dekonstruieren und allgemeineres Wissen autonom zu erfassen, ähnlich wie Menschen es tun. Dies steht im Gegensatz zu bestehenden Ansätzen, die natürliche Sprache in syntaktisch vollständigere formale Sprachen wie Python oder SQL umwandeln, was eher der Denkweise von Computerprogrammen entspricht und von den menschlichen Denkgewohnheiten abweicht.

In sechs arithmetischen und symbolischen Denkaufgaben konnte die Methode des Meta-Reasoning eine verbesserte Effizienz beim in-context Lernen, eine höhere Genauigkeit beim Schließen und eine stabilere Ausgabe erzielen. Insbesondere bei symbolischen Denkaufgaben wie dem Verfolgen von vertauschten Objekten übertraf das Modell GPT-3 (text-davinci-002) den Ansatz des Chain-of-Thought Promptings um 37,7% und erreichte nach einer einzigen Demonstration des Meta-Reasoning eine Genauigkeit von 99%.

Ein weiteres in der Forschung vorgestelltes Framework namens CRAFT zielt darauf ab, LLMs durch das Erstellen und Abrufen von spezialisierten Werkzeugsätzen zu erweitern. CRAFT generiert für jede Aufgabe spezifische Code-Lösungen, indem es GPT-4 anweist, Trainingsexamples zu lösen. Nach einer Validierungsphase werden diese Lösungen in Code-Snippets abstrahiert, um die Wiederverwendbarkeit zu erhöhen und für eine höhere Qualität dupliziert. Zur Inferenzzeit ruft das Sprachmodell Snippets aus diesen Werkzeugsätzen ab und führt sie aus oder generiert die Ausgabe unter Berücksichtigung der abgerufenen Snippets. Diese Methode ist flexibel und bietet einen Plug-and-Play-Ansatz zur Anpassung von LLMs an unbekannte Domänen und Modalitäten ohne Feinabstimmung. In Experimenten mit Aufgaben aus den Bereichen Vision-Sprache, tabellarische Verarbeitung und mathematisches Schließen erzielte der Ansatz erhebliche Verbesserungen im Vergleich zu starken Baselines.

Zusammenfassend lässt sich sagen, dass die vorgestellten Methoden und Frameworks zeigen, wie LLMs durch die Verwendung von abstrakterem Schließen und spezialisierten Werkzeugen verbessert werden können. Diese Fortschritte sind ein Beweis dafür, wie KI-Forschung dazu beitragen kann, die Effizienz und Genauigkeit von LLMs zu steigern und sie näher an das menschliche Denken heranzuführen. Für Unternehmen und Entwickler, die mit KI-Arbeiten, bietet dies spannende Möglichkeiten, ihre Systeme weiterzuentwickeln und ihre Anwendungen zu erweitern.

Was bedeutet das?

Wie können wir Ihnen heute helfen?

Das Expertenteam von Mindverse freut sich darauf, Ihnen zu helfen.

Relativity benötigt die Kontaktinformationen, die Sie uns zur Verfügung stellen, um Sie bezüglich unserer Produkte und Dienstleistungen zu kontaktieren. Sie können sich jederzeit von diesen Benachrichtigungen abmelden. Informationen zum Abbestellen sowie unsere Datenschutzpraktiken und unsere Verpflichtung zum Schutz Ihrer Privatsphäre finden Sie in unseren Datenschutzbestimmungen.