Die jüngsten Fortschritte im Bereich der Diffusionsmodelle haben die Möglichkeiten der Videoerzeugung erheblich erweitert. Insbesondere das Trajectory-oriented Diffusion Transformer (DiT) Modell, bekannt als Tora, hat durch seine Fähigkeit, Videos mit kontrollierbaren Bewegungen zu erzeugen, Aufmerksamkeit erregt. Diese Entwicklung könnte die Art und Weise, wie wir Videos erstellen und bearbeiten, revolutionieren.
Diffusionsmodelle haben sich als leistungsstarke Werkzeuge zur Erzeugung von Bildern und Videos erwiesen. Frühere Modelle, die auf U-Net-Architekturen basieren, waren jedoch in ihrer Fähigkeit, längere und konsistente Videos zu erzeugen, begrenzt. Die Einführung von DiT-Modellen, wie Sora, hat diese Einschränkungen überwunden und die Videoerzeugung auf ein neues Niveau gehoben, indem sie hochauflösende Videos mit verschiedenen Aspektverhältnissen und Längen erzeugen können.
Tora ist das erste Modell, das Text-, Bild- und Trajektoriendaten gleichzeitig integriert, um Videos zu erzeugen. Es besteht aus drei Hauptkomponenten:
Der Trajectory Extractor kodiert beliebige Trajektorien in hierarchische Raum-Zeit-Bewegungspatches, die anschließend in die DiT-Blöcke integriert werden, um konsistente Videos zu erzeugen, die den vorgegebenen Trajektorien folgen.
Die technische Umsetzung von Tora basiert auf der offenen Version von Sora, bekannt als OpenSora. Der Trajectory Extractor wandelt Positionsverschiebungen zwischen aufeinanderfolgenden Frames in das RGB-Domain um und verwendet einen 3D-Variational Autoencoder (VAE), um diese Visualisierungen in Raum-Zeit-Bewegungslatents zu kodieren. Diese Latents werden dann in mehreren Ebenen von Bewegungsbedingungen zerlegt, die in die DiT-Blöcke eingefügt werden.
Für das Training von Tora sind annotierte Videos mit Untertiteln und Bewegungstrajektorien erforderlich. OpenSoras Workflow wird angepasst, um Rohvideos in hochwertige Video-Text-Paare zu verwandeln, und ein optischer Fluss-Schätzer wird zur Extraktion der Trajektorien verwendet. Diese sorgfältige Auswahl führt zu einem Datensatz mit 630.000 hochwertigen Videoclips mit konsistenter Bewegung.
Die Hauptbeiträge von Tora sind:
Die Experimente zeigen, dass Tora Videos mit hoher Bewegungsgenauigkeit und realistischer Simulation der Bewegungen in der physischen Welt erzeugen kann.
Tora stellt einen bedeutenden Fortschritt in der Videoerzeugung durch Diffusionsmodelle dar. Mit seiner Fähigkeit, Videos mit kontrollierbaren Bewegungen zu erzeugen, eröffnet es neue Möglichkeiten für die kreative und professionelle Nutzung von Videos. Die kontinuierliche Weiterentwicklung und Erforschung von DiT-Modellen wird voraussichtlich weitere Verbesserungen und Anwendungen in diesem dynamischen Forschungsbereich bringen.