Die Generierung von Videos mithilfe von Künstlicher Intelligenz (KI) hat in den letzten Jahren erhebliche Fortschritte gemacht. Ein vielversprechender Ansatz ist die autoregressive Modellierung, die bereits in der Textgenerierung beeindruckende Ergebnisse erzielt hat. Doch die Übertragung dieses Prinzips auf die Videogenerierung stellt Forscher vor neue Herausforderungen. Während Textmodelle kausale Abhängigkeiten zwischen Wörtern lernen, müssen Videomodelle die komplexen zeitlichen Beziehungen zwischen einzelnen Frames erfassen.
Ein neuer Ansatz in diesem Bereich ist das Frame AutoRegressive (FAR) Modell. Ähnlich wie Textmodelle die Wahrscheinlichkeit des nächsten Wortes basierend auf den vorhergehenden Wörtern vorhersagen, prognostiziert FAR den nächsten Frame eines Videos basierend auf den vorangegangenen Frames. Dieser Ansatz ermöglicht es, die zeitliche Kohärenz in Videos zu erfassen und so realistischere und flüssigere Videosequenzen zu generieren.
Studien zeigen, dass FAR im Vergleich zu anderen Methoden, wie beispielsweise Token AutoRegressive (Token AR) oder Video Diffusion Transformers, eine bessere Konvergenz erreicht. Das bedeutet, dass das Modell schneller lernt und bessere Ergebnisse erzielt.
Die Modellierung von Langzeit-Kontexten in Videos stellt die Forschung jedoch vor besondere Herausforderungen. Visuelle Redundanz in Videos erschwert das Lernen von Langzeitabhängigkeiten. Bestehende Methoden wie RoPE (Rotary Position Embedding) bieten keine ausreichende zeitliche Gewichtung für weiter entfernte Kontexte und können daher nicht gut auf lange Videosequenzen extrapoliert werden. Hinzu kommt der hohe Rechenaufwand beim Training mit langen Videos, da die Anzahl der visuellen Tokens im Vergleich zu Text-Tokens deutlich schneller ansteigt.
Um diesen Herausforderungen zu begegnen, wurden neue Techniken entwickelt, die Lokalität und Langzeitabhängigkeiten ausbalancieren. FlexRoPE, eine Methode zur Anpassung der zeitlichen Gewichtung von RoPE, ermöglicht die Extrapolation auf deutlich längere Videosequenzen. Ergänzend dazu bietet die Langzeit-Kurzzeit-Kontextmodellierung einen vielversprechenden Ansatz. Hierbei wird ein hochauflösendes Kurzzeit-Kontextfenster verwendet, um die zeitliche Konsistenz auf feiner Ebene zu gewährleisten. Parallel dazu erfasst ein Langzeit-Kontextfenster mit reduzierter Tokenanzahl die relevanten Informationen über längere Zeiträume. Dieser kombinierte Ansatz ermöglicht das Training mit langen Videosequenzen bei gleichzeitig überschaubarem Rechenaufwand.
Die Ergebnisse der bisherigen Forschung zeigen, dass FAR sowohl bei der Generierung von Kurz- als auch Langzeitvideos vielversprechende Ergebnisse liefert. Das Modell bietet eine einfache und dennoch effektive Basis für die autoregressive Videomodellierung und könnte zukünftig eine wichtige Rolle in der Entwicklung von KI-basierten Videoanwendungen spielen. Von der Erstellung von realistischen Animationen bis hin zur automatischen Videobearbeitung – die Möglichkeiten sind vielfältig und eröffnen spannende Perspektiven für die Zukunft der Videotechnologie.
Bibliographie: - https://huggingface.co/papers - https://arxiv.org/html/2411.10503v1 - https://openreview.net/forum?id=JE9tCwe3lp - https://arxiv.org/html/2501.05453v1 - https://openaccess.thecvf.com/content/CVPR2024/papers/Shrivastava_Video_Prediction_by_Modeling_Videos_as_Continuous_Multi-Dimensional_Processes_CVPR_2024_paper.pdf - https://openreview.net/pdf?id=K-hiHQXEQog - https://huggingface.co/papers?q=Autoregressive%20visual%20generation%20models - https://www.researchgate.net/publication/369233726_Implicit_Stacked_Autoregressive_Model_for_Video_Prediction - https://pmc.ncbi.nlm.nih.gov/articles/PMC10606505/ - https://www.cs.umd.edu/~gauravsh/cvp/supp/files/CVPR2024_VideoSDE.pdf