In der Welt der künstlichen Intelligenz stellt das Training von Sprachmodellen eine der bedeutendsten Herausforderungen dar. Diese Modelle, die darauf abzielen, menschliche Sprache zu verstehen und zu generieren, sind das Herzstück zahlreicher Anwendungen, von der automatischen Übersetzung bis hin zur Entwicklung von Chatbots. Eines der grundlegenden Probleme in diesem Bereich ist der Zugang zu großen und vielfältigen Datenmengen, die für das Training dieser Modelle erforderlich sind.
Das Allen Institute for AI (AI2) ist bekannt für seine Bemühungen, die Forschung und Entwicklung im Bereich der künstlichen Intelligenz zu fördern. Mit der Veröffentlichung des Dolma-Korpus, einer Sammlung von drei Billionen Tokens, setzt das Institut neue Maßstäbe hinsichtlich der Offenheit und Transparenz in der AI-Forschung. Dolma besteht aus einer breiten Mischung von Webinhalten, wissenschaftlichen Arbeiten, Codesegmenten, gemeinfreien Büchern, sozialen Medien und enzyklopädischem Material.
Bei der Zusammenstellung des Dolma-Korpus hat AI2 auf Offenheit und Repräsentativität geachtet. Ziel war es, eine Datenbasis zu schaffen, die vergleichbar mit den Datensätzen ist, die für andere Sprachmodelle verwendet werden, sowohl offene als auch private. Ein weiterer wichtiger Aspekt war die Größe des Datensatzes. Basierend auf den sogenannten "Chinchilla Scaling Laws" wurde argumentiert, dass "berechnungsoptimale" Modelle trainiert werden können, indem ein Verhältnis zwischen der Größe des Sprachmodells und der Anzahl der Trainingstokens aufrechterhalten wird. Obwohl neuere Modelle, die diesen Gesetzen folgen, darauf hindeuten, dass es immer noch Raum für Leistungsverbesserungen gibt, wenn die Anzahl der Trainingstokens erhöht wird, ist das Verständnis dieses Kompromisses ein aktives Forschungsgebiet.
AI2 hat auch Wert darauf gelegt, das Risiko für Einzelpersonen zu minimieren und gleichzeitig Anforderungen an Reproduzierbarkeit und Repräsentativität zu erfüllen. Dieser Ansatz ist besonders relevant angesichts der zunehmenden Bedeutung generativer Modelle und der Notwendigkeit, die Ausgaben solcher Modelle auf ihre Trainingsdaten zurückführen zu können.
Die Erstellung von Dolma erforderte die Umwandlung von Rohdaten aus verschiedenen Quellen in bereinigte, reine Textdokumente. Dieser Prozess beinhaltete sowohl quellspezifische als auch quellenunabhängige Verarbeitungsschritte. Zum Beispiel wurden Daten aus dem Common Crawl und Code aus Stack Overflow mit unterschiedlichen Pipelines verarbeitet, um eine möglichst umfangreiche und vielfältige Sammlung zu erstellen.
Die Entscheidung, sich auf englischen Text zu beschränken, wurde mit der bisherigen Konzentration der großangelegten Sprachmodellforschung auf diese Sprache begründet. Für die erste Version von OLMo (Open Language Model), das auf dem Dolma-Datensatz aufgebaut ist, wurde das Datenmaterial auf Englisch limitiert, um auf ein größeres Set bekannter Verfahren zurückgreifen zu können. Zukünftige Versionen von OLMo sollen jedoch auch andere Sprachen berücksichtigen.
Zusätzlich zu Dolma hat AI2 eine Reihe von Werkzeugen veröffentlicht, die anderen Forschern ermöglichen, die Arbeit zu reproduzieren und eigene Datensätze zu erstellen. Diese Offenheit ist ein wesentlicher Schritt, um die KI-Forschung demokratischer zu gestalten und auch kleineren Akteuren den Zugang zu qualitativ hochwertigen Daten zu ermöglichen.
Das Dolma-Projekt zeigt, dass eine transparente und offene Herangehensweise an die KI-Forschung möglich ist. Durch die Bereitstellung von Datensätzen, Werkzeugen und Modellen können Forscher weltweit an der Weiterentwicklung der Sprachmodellierung zusammenarbeiten. Dieser Ansatz ermöglicht es, nicht nur die Technologie selbst voranzubringen, sondern auch unser Verständnis darüber, wie künstliche Intelligenz am besten eingesetzt und weiterentwickelt werden kann.
In einer Zeit, in der die Diskussion um die Ethik der künstlichen Intelligenz immer lauter wird, setzt AI2 mit der Veröffentlichung von Dolma ein klares Zeichen für Offenheit und Verantwortungsbewusstsein. Dieser umfangreiche und vielfältige Datensatz wird zweifellos dazu beitragen, dass die künstliche Intelligenz in einer Weise weiterentwickelt wird, die den Bedürfnissen aller gerecht wird und die Risiken für Individuen minimiert.