Die Welt der Künstlichen Intelligenz (KI) entwickelt sich rasant weiter, und ein Bereich, der in letzter Zeit große Fortschritte gemacht hat, ist die Videogenerierung. Während KI-Modelle lange Zeit Schwierigkeiten hatten, längere, zusammenhängende Videos zu erstellen, scheint sich dies nun zu ändern. Ein vielversprechender neuer Ansatz ist Loong, ein auf autoregressiven Sprachmodellen (LLMs) basierendes Modell, das von einem Forschungsteam unter der Leitung von Xihui Liu entwickelt wurde.
Die Generierung von Videos, die über ein paar Sekunden hinausgehen und gleichzeitig inhaltlich reichhaltig und kohärent sind, stellt eine große Herausforderung für KI-Systeme dar. Bisherige Ansätze, die auf autoregressiven LLMs basierten, konnten zwar beeindruckende Ergebnisse bei der Erstellung kurzer Videos erzielen, stießen aber bei längeren Sequenzen an ihre Grenzen.
Loong geht dieses Problem mit einem neuartigen Ansatz an. Das Modell betrachtet Text- und Videotoken als eine einheitliche Sequenz und wird von Grund auf neu trainiert. Dieser Ansatz ermöglicht es Loong, die Stärken von autoregressiven LLMs für die Generierung langer, kohärenter Textsequenzen auf die Videogenerierung zu übertragen.
Um die Herausforderungen bei der Generierung langer Videos zu meistern, setzt Loong auf innovative Trainingsmethoden und Strategien zur Fehlerminimierung. Ein Beispiel hierfür ist das "Progressive Short-to-Long Training", bei dem das Modell zunächst auf kürzeren Videos trainiert und anschließend schrittweise auf längere Sequenzen erweitert wird. Dieser Ansatz hilft, das Problem des Ungleichgewichts beim Trainieren mit langen Videos zu verringern.
Zusätzlich verwendet Loong spezielle Inferenzstrategien wie "Video Token Re-Encoding" und ausgefeilte Sampling-Methoden, um die Akkumulation von Fehlern während des Generierungsprozesses zu minimieren. Diese Strategien tragen dazu bei, dass die generierten Videos auch über längere Zeiträume hinweg konsistent und qualitativ hochwertig bleiben.
Die ersten Ergebnisse von Loong sind vielversprechend. Das Modell ist in der Lage, auf der Grundlage von Textbeschreibungen Videos mit einer Länge von bis zu einer Minute zu generieren, die eine bemerkenswerte Kohärenz und Detailtreue aufweisen. Diese Fähigkeit eröffnet eine Vielzahl neuer Möglichkeiten für die Anwendung von KI in Bereichen wie der Filmindustrie, der Werbung und der Erstellung von Bildungsinhalten.
Obwohl sich Loong noch in einem frühen Entwicklungsstadium befindet, zeigt es das enorme Potenzial von KI-basierten Systemen für die Videogenerierung. Die weitere Erforschung und Entwicklung solcher Modelle könnte in Zukunft zu noch beeindruckenderen Ergebnissen führen und die Art und Weise, wie wir Videos erstellen und konsumieren, grundlegend verändern.
Yuqing Wang, Tianwei Xiong, Daquan Zhou, Zhijie Lin, Yang Zhao, Bingyi Kang, Jiashi Feng, Xihui Liu. "Loong: Generating Minute-level Long Videos with Autoregressive Language Models". arXiv preprint arXiv:2410.02757 (2024).
https://huggingface.co/papers/2410.02757 https://x.com/_akhaliq?lang=de https://huggingface.co/papers https://twitter.com/_akhaliq/status/1740701261815803906/video/1