In der Welt der künstlichen Intelligenz (KI) und des maschinellen Lernens sind Daten das neue Gold. Doch während die Nachfrage nach hochwertigen Trainingsdaten für KI-Modelle stetig wächst, stoßen Forscher und Entwickler auf rechtliche und praktische Herausforderungen bei der Datenerhebung. In diesem Kontext erscheint die Schaffung synthetischer Daten als vielversprechende Lösung. Ein aktuelles Diskussionsthema in der KI-Community betrifft die Vermutung, dass OpenAI für die Erstellung solcher Daten die Unreal Engine oder ein ähnliches Tool verwendet haben könnte. Dies geht aus einem Beitrag von Philipp Schmid, einem KI-Forscher, hervor, der die Ähnlichkeiten zwischen den Sora-Videos von OpenAI und Videospielen hervorhebt.
Synthetische Daten sind künstlich erzeugte Informationen, die echte Daten in Trainingsumgebungen für KI-Modelle simulieren. Sie sind besonders in Bereichen wie dem autonomen Fahren, der Bilderkennung und dem maschinellen Sehen von Bedeutung, wo das Sammeln realer Daten aufgrund von Datenschutzbedenken, Überflugrechten für Drohnen oder teurer Ausrüstung oft kostspielig und zeitintensiv ist. Die Verwendung von Unreal Engine zur Generierung von Grundwahrheitsdatensätzen (Ground Truth Datasets) wurde bereits in akademischen Kreisen diskutiert, wie etwa in einem Beitrag von Thomas Pollok und Kollegen des Karlsruher Instituts für Technologie (KIT). Dabei wird die Unreal Engine als Simulationsumgebung vorgeschlagen, die komplexe Situationen in einer virtuellen Welt darstellen kann.
Die Erstellung von Trainingsdaten mittels Unreal Engine bietet mehrere Vorteile. Zum einen können Bilder und Metadaten direkt aus einer virtuellen Szene extrahiert werden, die speziell auf die Bedürfnisse des jeweiligen Algorithmus oder Anwendungsfalls zugeschnitten ist. Zum anderen umgeht man damit Datenschutzprobleme und benötigt keine teuren Sensoren. Die generierten Daten können so beschaffen sein, dass sie realen Daten sehr ähnlich sind, ohne dass tatsächliche Personen oder Objekte erfasst werden müssen.
Die Unreal Engine ist eine leistungsstarke Spiel-Engine, die auch in der Film- und Fernsehindustrie zunehmend Anwendung findet. Ihre Fähigkeit, realistische Umgebungen und Objekte zu rendern, macht sie auch für die KI-Entwicklung attraktiv. Durch die Kombination von Unreal Engine mit anderen Tools wie dem NVIDIA Deep Learning Dataset Synthesizer (NDDS) können Entwickler umfangreiche synthetische Datasets für Computer Vision Anwendungen erstellen.
Trotz der Vorteile synthetischer Daten gibt es auch Bedenken hinsichtlich ihrer Qualität und Repräsentativität. Es ist unerlässlich, dass die verwendeten Modelle nicht nur auf synthetisch generierten Daten, sondern auch auf realen Daten getestet werden, um ihre Generalisierbarkeit und Effektivität in der realen Welt zu gewährleisten.
Angesichts dieser technologischen Fortschritte und Möglichkeiten stellt sich die Frage nach den rechtlichen Rahmenbedingungen für die Verwendung solcher Daten. OpenAI hat in seinen Nutzungsbedingungen klar festgelegt, dass es nicht erlaubt ist, die API zur Erstellung konkurrierender Modelle zu verwenden. Gleichzeitig gibt es jedoch Datensätze, die von GPT-3 oder GPT-4 generiert wurden und kommerziell genutzt werden dürfen.
Das Interesse an der Erzeugung und Verwendung von synthetischen Daten wird weiterhin wachsen, da die KI-Forschung und -Entwicklung fortschreitet. Die Möglichkeit, realistische und vielfältige Datasets zu erstellen, ohne auf echte Datenerhebung angewiesen zu sein, könnte die Entwicklung von KI-Systemen beschleunigen. Doch dieser Fortschritt muss von einer klaren rechtlichen und ethischen Diskussion begleitet werden, um sicherzustellen, dass die Verwendung von KI-Technologie im besten Interesse der Gesellschaft bleibt.
Quellen:
- Pollok, Thomas et al. (2019). "UnrealGT: Using Unreal Engine to Generate Ground Truth Datasets." Karlsruher Institut für Technologie (KIT).
- OpenAI Community Forum. "Synthetic instructions generated by OpenAI."
- YouTube-Kanal von Suraj Pattar. "How to generate synthetic data using Unreal Engine 4 and NDDS | Tutorial."