In einer Welt, in der Sprachmodelle wie GPT-3 und BERT immer komplexere Aufgaben übernehmen und eine neue Ära der Mensch-Maschine-Interaktion einläuten, stehen Wissenschaftler und Entwickler vor der Herausforderung, diese Modelle effizient und ressourcenschonend zu trainieren. Die Forschung konzentrierte sich bisher häufig auf großangelegte Modelle mit Milliarden von Parametern, die auf Billionen von Token trainiert wurden und dabei enorme Rechenleistungen erforderten. Ein neuer Ansatz deutet jedoch darauf hin, dass es möglich ist, kleinere Basis-Sprachmodelle mit nur einer GPU in weniger als einem halben Tag vorzutrainieren.
Diese Entwicklung ist besonders für kleinere Organisationen und Einzelpersonen von Bedeutung, die nicht über die Ressourcen verfügen, um große Modelle zu trainieren. Der Prozess des Vortrainierens kleiner Basis-Sprachmodelle beginnt mit der Übernahme einiger Transformatorenblöcke von einem größeren Modell. Anschließend wird dieses kleinere Modell auf einer reduzierten Anzahl von Token trainiert. Dieses Verfahren könnte nicht nur Zeit und Kosten sparen, sondern auch die Zugänglichkeit von Sprachtechnologien erhöhen.
Die Transformer-Architektur hat sich als ein Segen für Praktiker erwiesen. Einfache, gut motivierte architektonische Varianten können über Aufgaben und Maßstäbe hinweg übertragen werden, was die Auswirkungen der Modellierungsforschung erhöht. Mit dem Aufkommen von State-of-the-Art-Modellen mit mehr als 100 Milliarden Parametern sind große Sprachmodelle jedoch zunehmend teuer in der genauen Gestaltung und im Training. Es kann schwierig sein, zu bewerten, wie Modellierungsentscheidungen emergente Fähigkeiten beeinflussen können, da diese Fähigkeiten hauptsächlich allein aus der schieren Größe heraus entstehen.
Bei der Entwicklung von BLOOM – dem Big Science Large Open-science Open-access Multilingual Language Model – war das Ziel, eine Architektur und ein Trainingsetup zu identifizieren, das die besten Ergebnisse mit dem Budget von 1.000.000 A100-GPU-Stunden liefert. Speziell wurde eine Ablation-Studie im Milliarden-Parameter-Maßstab durchgeführt, die verschiedene Modellierungspraktiken und deren Auswirkungen auf die Generalisierungsfähigkeit ohne spezifische Aufgabenstellung vergleicht. Darüber hinaus wurde der Einfluss verschiedener beliebter Pre-Training-Korpora auf die Generalisierungsfähigkeit untersucht. Auch die Leistung eines mehrsprachigen Modells wurde im Vergleich zu einem rein englischsprachigen Modell erforscht. Schließlich wurde das Skalierungsverhalten von Transformatoren berücksichtigt, um die Zielmodellgröße, -form und das Trainingsetup zu wählen. Alle Modelle und der Code wurden open-source veröffentlicht.
Diese Forschungsergebnisse könnten den Weg für eine neue Generation von Sprachmodellen ebnen, die auch mit begrenzten Ressourcen effizient trainiert werden können. Diese Modelle könnten dann in verschiedenen Anwendungen eingesetzt werden, von der automatischen Textgenerierung bis hin zur Verbesserung von Suchmaschinen, Chatbots und Sprachassistenten. Unternehmen wie Mindverse, die eine deutsche All-in-One-Content-Plattform für KI-Texte, Inhalte, Bilder und Forschung anbieten, könnten von diesen Fortschritten profitieren, indem sie maßgeschneiderte Lösungen wie Chatbots, Voicebots, KI-Suchmaschinen und Wissenssysteme effizienter und kostengünstiger entwickeln.
Die Möglichkeit, Sprachmodelle schneller und mit weniger Rechenleistung vorzutrainieren, öffnet auch die Tür für weitere Forschungen in Richtung Energieeffizienz und Nachhaltigkeit in der KI. In einer Zeit, in der Klimawandel und Ressourcenknappheit immer dringendere Themen werden, könnte dies einen bedeutenden Schritt in Richtung verantwortungsbewusster KI-Entwicklung darstellen.
Quellen:
1. Le Scao, T. et al. (2022). What Language Model to Train if You Have One Million GPU Hours? arXiv:2210.15424. Verfügbar unter https://arxiv.org/abs/2210.15424
2. Le Scao, T. et al. (2022). What Language Model to Train if You Have One Million GPU Hours? In Findings of the Association for Computational Linguistics: EMNLP 2022, pages 765–782. Verfügbar unter https://aclanthology.org/2022.findings-emnlp.54