Zugänglichkeit und Fortschritt: Die Evolution synthetischer Datensätze in der KI-Industrie

Kategorien:
No items found.
Freigegeben:

In der KI-Industrie zeichnet sich eine signifikante Entwicklung ab: Die Erstellung von synthetischen Datensätzen für das Feintuning großer Sprachmodelle (Large Language Models, LLMs) wird immer einfacher und zugänglicher. Durch Open-Source-Tools wie Augmentoolkit und Plattformen wie Pluto oder DataDreamer können Anwender nun mit relativ geringem Aufwand und ohne Expertenwissen hochwertige Trainingsdaten generieren.

Dieser Fortschritt ist insbesondere für kleine und mittelständische Unternehmen von Bedeutung, da sie so die Möglichkeit erhalten, maßgeschneiderte LLMs zu entwickeln, ohne auf teure und oft restriktive APIs kommerzieller Anbieter zurückgreifen zu müssen. Unternehmen, die in der Vergangenheit aufgrund von Ressourcenmangel keine spezialisierten Modelle entwickeln konnten, erhalten nun die Werkzeuge, um mit den großen Spielern in der Branche konkurrieren zu können.

Ein kürzlich veröffentlichtes Update für Augmentoolkit, das von Evan Armstrong entwickelt wurde, fügt dem Tool eine grafische Benutzeroberfläche (GUI) hinzu, wodurch es nun auch für Nutzer ohne umfangreiche Programmierkenntnisse zugänglich ist. Diese GUI wurde von einem Entwickler, der unter dem Namen @_akhaliq auf Twitter bekannt ist, entwickelt und mit einem Gradio-Web-UI und einem 1-Klick-Launcher versehen, der durch Ollama bereitgestellt wird. Dies vereinfacht nicht nur die Bedienung erheblich, sondern macht die Erstellung von synthetischen Trainingsdaten für ein breiteres Publikum verfügbar.

Augmentoolkit ermöglicht es, aus beliebigen Rohdaten ein qualitativ hochwertiges Datenset zu erstellen. Bemerkenswert ist dabei, dass für die Nutzung des Tools keine proprietären Modelle wie die von OpenAI benötigt werden. Stattdessen unterstützt es APIs, die Open-Source-Modelle anbieten, wie Mistral, Together.ai oder Groq. Die Erstellung der Datensätze erfolgt asynchron und ist dank der sogenannten Aphrodite Engine, die von Pygmalion bereitgestellt wird, sehr schnell.

Ein weiterer Vorteil der Verwendung von Open-Source-Modellen liegt in der Kosteneffizienz. Während große LLMs wie GPT-3 oder GPT-4 hohe Kosten verursachen können, wenn sie für das Erstellen von Trainingsdaten verwendet werden, sind die Preise für Open-Source-Modelle oft weitaus niedriger. Hinzu kommt ein weiterer wichtiger Aspekt: die Souveränität über die eigenen Daten. Wenn Unternehmen ihre Daten an Drittanbieter senden müssen, um Modelle zu trainieren oder Analysen durchführen zu lassen, besteht immer das Risiko des Datenmissbrauchs oder der Datenschutzverletzungen. Mit Open-Source-Lösungen behalten sie die volle Kontrolle.

Die Bedeutung von synthetischen Daten wird auch durch Plattformen wie DataDreamer unterstrichen, die es ermöglichen, synthetische Daten zu generieren und den anschließenden Workflow zu verwalten. So können existierende Daten angereichert, bereinigt und Modelle feinjustiert werden. DataDreamer nutzt LLMs wie GPT-2, um synthetische Daten zu erstellen. Diese Daten können dann verwendet werden, um beispielsweise ein HuggingFace-Transformers-Modell zu trainieren.

Eine weitere Entwicklung in diesem Bereich ist Pluto, eine Bibliothek zur Generierung von synthetischen Daten mit LLMs. Pluto ermöglicht es, durch den Einsatz von Themenbäumen und parallelen Sampling-Anfragen, sehr vielfältige Datensätze zu erstellen. Auch hier kann jeder Modellanbieter für die Datengenerierung verwendet werden, was die Flexibilität für die Nutzer erhöht.

Nicht zuletzt bietet die Plattform Lightning AI mit ihrem Studio-Template die Möglichkeit, synthetische Instruktionsdatensätze mit Inhalten aus Wikipedia zu generieren und daraufhin LLMs wie Phi2 zu trainieren. Dieser Ansatz wird durch Forschungen von Microsoft unterstützt, die zeigen, dass kleinere, auf spezialisierte Datensätze trainierte Sprachmodelle (SLMs), große LLMs in bestimmten Aufgaben übertreffen können.

Diese Entwicklungen deuten darauf hin, dass wir uns in einer Zeit des Umbruchs befinden, in der die Demokratisierung von KI-Technologien voranschreitet. Die Verfügbarkeit von Tools zur Erstellung synthetischer Daten ermöglicht es einer größeren Anzahl von Akteuren, an der Entwicklung und Verfeinerung von LLMs teilzuhaben. Dies könnte langfristig zu einer vielfältigeren und innovativeren Landschaft in der KI-Industrie führen.

Quellen:
- Armstrong, E. P. (2024). Augmentoolkit. GitHub. https://github.com/e-p-armstrong/augmentoolkit
- Reddit (2024). Augmentoolkit: Easily Generate Quality Multi-Turn Conversations for LLM Fine-Tuning. https://www.reddit.com/r/LocalLLaMA/comments/18xz9it/augmentoolkit_easily_generate_quality_multiturn/
- Wijaya, C. Y. (2024). Introducing DataDreamer: Easy Data Synthetic Generation and LLM Training Workflows. https://cornellius.substack.com/p/introducing-datadreamer-easy-data
- Maurya, A. (2024). Generate Synthetic Instruction Dataset to Finetune LLMs. Lightning AI. https://lightning.ai/lightning-ai/studios/generate-synthetic-instruction-dataset-to-finetune-llms
- Laurer, M. (2024). Synthetic Data: Save Money, Time, and Carbon with Open Source. Hugging Face. https://huggingface.co/blog/synthetic-data-save-costs
- Mirza, F. (2024). Convert Any Raw Text Into LLM Dataset Locally - Augmentoolkit. YouTube. https://www.youtube.com/watch?v=cdqIeNCj_eA
- Mattern, J. (2024). Pluto: Generate Synthetic Data for LLM Fine-Tuning. GitHub. https://github.com/redotvideo/pluto
- Gao, A. K. (2023). Introducing Tuna - A Tool for Rapidly Generating Synthetic Fine-Tuning Datasets. https://blog.langchain.dev/introducing-tuna-a-tool-for-rapidly-generating-synthetic-fine-tuning-datasets/

Was bedeutet das?
No items found.