Fortschritte in der KI-gestützten Bild- und Videogenerierung

Kategorien:

No items found.

Freigegeben:

June 14, 2024

Artikel jetzt als Podcast anhören

00:00 / 00:00

In den letzten Jahren hat sich die Künstliche Intelligenz (KI) rasant weiterentwickelt und beeindruckende Fortschritte in verschiedenen Bereichen erzielt. Ein Bereich, der zunehmend an Bedeutung gewinnt, ist die Generierung von Bildern und Videos mithilfe von KI-Modellen. Insbesondere generative Modelle, die auf Diffusionsprozessen basieren, haben in jüngster Zeit große Aufmerksamkeit erregt. Diese Modelle, die oft auf der Architektur von sogenannten Diffusionstransformatoren (DiT) aufbauen, sind in der Lage, hochauflösende und realitätsnahe Bilder zu generieren. In diesem Kontext ist die neueste Entwicklung der Forschungsgruppe der New York University (NYU) von besonderem Interesse.

Die Wissenschaftler der NYU haben eine Familie von generativen Modellen vorgestellt, die als Skalierbare Interpolantentransformatoren (SiT) bezeichnet werden. Diese basieren auf den DiT und nutzen ein Interpolanten-Framework, das eine flexiblere Verbindung zwischen zwei Verteilungen ermöglicht, als es bei Standard-Diffusionsmodellen der Fall ist. Dieses Framework erlaubt eine modulare Untersuchung verschiedener Designentscheidungen, die die generativen Modelle beeinflussen, die auf dynamischem Transport aufbauen. Hierzu zählen beispielsweise die Wahl zwischen diskretem und kontinuierlichem Zeitlernen, die Festlegung des Ziels, das das Modell lernen soll, die Auswahl des Interpolanten, der die Verteilungen verbindet, sowie die Entscheidung für einen deterministischen oder stochastischen Sampler.

Die Forschungsarbeit zeigt, dass SiT im Vergleich zu DiT über alle Modellgrößen hinweg bessere Ergebnisse auf dem bedingten ImageNet 256x256 Benchmark erzielt, und das bei gleicher Backbone-Architektur, Anzahl an Parametern und GFLOPS. Durch das Erforschen verschiedener Diffusionskoeffizienten, die unabhängig vom Lernen eingestellt werden können, erreicht SiT eine FID-50K-Bewertung von 2,06. Die FID (Fréchet Inception Distance) ist eine Metrik, die die Qualität von Bildern misst und insbesondere in der Bewertung von generativen Modellen verwendet wird.

Die Arbeit der NYU-Forscher ist nicht die einzige in diesem aufstrebenden Forschungsfeld. Eine weitere wichtige Entwicklung ist das GenTron-Modell, das ebenfalls auf Transformer-basierten Diffusionsmodellen beruht und für die Generierung von Bildern und Videos verwendet wird. Obwohl die Transformer-Architektur in verschiedenen Bereichen aufgrund ihrer Flexibilität und Skalierbarkeit dominiert, wird der visuelle generative Bereich hauptsächlich von CNN-basierten U-Net-Architekturen beherrscht, insbesondere bei Diffusionsmodellen. GenTron versucht, diese Lücke zu schließen, indem es von der Klassen- zur Textkonditionierung übergeht und dabei umfangreiche empirische Untersuchungen zum Konditionierungsmechanismus durchführt.

Das Skalieren von GenTron, von etwa 900 Millionen bis über 3 Milliarden Parametern, führt zu signifikanten Verbesserungen der visuellen Qualität. Darüber hinaus wird GenTron für die Text-zu-Video-Generierung erweitert, wobei neuartige bewegungsfreie Leitlinien zur Verbesserung der Videoqualität integriert werden. In menschlichen Bewertungen gegenüber SDXL erreicht GenTron eine Siegquote von 51,1% in Bezug auf die visuelle Qualität (bei einer Unentschiedenrate von 19,8%) und eine Siegquote von 42,3% in Bezug auf die Textausrichtung (bei einer Unentschiedenrate von 42,9%). GenTron zeigt auch seine Stärken in der kompositionellen Generierung, was durch seine Leistung im T2I-CompBench unterstrichen wird.

Ein weiteres bemerkenswertes Modell ist DiffMorpher, das die Fähigkeiten von Diffusionsmodellen für die Bildmorphing-Aufgabe erweitert. Diffusionsmodelle haben in der Bildgenerierung bemerkenswerte Qualitäten erreicht und übertreffen frühere generative Modelle. Ein Nachteil von Diffusionsmodellen im Vergleich zu GANs ist jedoch ihre Schwierigkeit, zwischen zwei Bildproben reibungslos zu interpolieren, da ihr latenter Raum sehr unstrukturiert ist. Diese reibungslose Interpolation ist von Interesse, da sie eine natürliche Lösung für die Aufgabe des Bildmorphings mit vielen Anwendungen darstellt. DiffMorpher ermöglicht eine reibungslose und natürliche Bildinterpolation unter Verwendung von Diffusionsmodellen. Der Schlüsselgedanke besteht darin, die Semantik der beiden Bilder zu erfassen, indem zwei LoRAs (local rank approximations) entsprechend angepasst werden und zwischen den LoRA-Parametern und den latenten Geräuschen interpoliert wird, um einen reibungslosen semantischen Übergang zu gewährleisten. Zusätzlich wird eine Technik zur Interpolation und Injektion von Aufmerksamkeit sowie ein neuer Abtastzeitplan vorgeschlagen, um die Weichheit zwischen aufeinanderfolgenden Bildern weiter zu verbessern. Umfangreiche Experimente zeigen, dass DiffMorpher deutlich bessere Bildmorphing-Effekte als frühere Methoden über eine Vielzahl von Objektkategorien hinweg erzielt und damit eine kritische funktionale Lücke schließt, die Diffusionsmodelle von GANs unterscheidet.

Diese Entwicklungen auf dem Gebiet der generativen KI-Modelle zeigen das enorme Potenzial, das in der Verbindung von fortschrittlichen Algorithmen und innovativer Architektur steckt. Während die Forschung fortschreitet, wird erwartet, dass diese Modelle noch realistischere und vielseitigere visuelle Inhalte erzeugen können, was sowohl für die akademische Forschung als auch für praktische Anwendungen von großer Bedeutung ist.

Was bedeutet das?