In der Welt der künstlichen Intelligenz und Computergrafik stehen wir an der Schwelle zu einer neuen Ära der Bildsynthese. Mit Text-zu-Bild-Diffusionsmodellen können Künstler, Designer und Enthusiasten beeindruckende Bilder allein aus Textbeschreibungen generieren. Doch trotz der Fortschritte in dieser Technologie gab es bisher Grenzen in der Feinsteuerung bestimmter Bildmerkmale. Adobe präsentiert nun eine Methode, die es ermöglicht, kontinuierliche 3D-Attribute wie Beleuchtungsrichtung oder nicht starre Formänderungen in Bildern zu erkennen und zu steuern.
Diese Methode, bekannt als "Continuous 3D Words", erlaubt es den Benutzern von Text-zu-Bild-Modellen, feingranulare Kontrolle über verschiedene Attribute eines Bildes auszuüben. Die Technologie nutzt speziell entwickelte Eingabetoken, die kontinuierlich transformiert werden können. Diese Attribute können beispielsweise als Schieberegler dargestellt und gemeinsam mit Textaufforderungen für eine präzise Steuerung der Bildgenerierung verwendet werden.
Durch die Verwendung eines einzigen Meshes und einer Rendering-Engine zeigt Adobe, dass dieser Ansatz kontinuierliche Benutzerkontrolle über mehrere 3D-bewusste Attribute ermöglicht, einschließlich der Beleuchtung zu verschiedenen Tageszeiten, der Flügelorientierung von Vögeln, des Dollyzoom-Effekts und der Objektposen. Die Methode ist in der Lage, die Bildschöpfung mit mehreren Continuous 3D Words und Textbeschreibungen gleichzeitig zu konditionieren, ohne dass dies zu einem Mehraufwand im Generierungsprozess führt.
In einem weiteren Fortschritt hat Adobe auch das "PIXART-δ"-Framework vorgestellt, das das Latent Consistency Model (LCM) und ControlNet in das fortschrittliche PIXART-α-Modell integriert. PIXART-δ beschleunigt die Inferenzgeschwindigkeit erheblich und ermöglicht die Erzeugung hochwertiger Bilder in nur 2-4 Schritten. Auffallend ist insbesondere die Fähigkeit, 1024 × 1024 Pixel Bilder in nur 0,5 Sekunden zu generieren, was eine 7-fache Verbesserung gegenüber dem PIXART-α-Modell darstellt.
Darüber hinaus stellt das Uni-ControlNet eine vereinheitlichte Rahmenstruktur dar, die es erlaubt, unterschiedliche lokale Steuerungselemente (z.B. Kantenkarten, Tiefenkarten, Segmentierungsmasken) und globale Steuerungen (z.B. CLIP-Bildembeddings) flexibel und kombinierbar innerhalb eines einzigen Modells zu nutzen. Im Gegensatz zu bestehenden Methoden erfordert Uni-ControlNet nur das Feintuning von zwei zusätzlichen Adaptern auf eingefrorenen vorab trainierten Text-zu-Bild-Diffusionsmodellen, wodurch die enormen Kosten eines Trainings von Grund auf entfallen.
Ein weiterer Schritt in Richtung interaktiver 3D-Inhaltserstellung wird mit "Control3D" gemacht, der ersten Versuch, Text-zu-3D-Generierung mit zusätzlichen handgezeichneten Skizzen zu konditionieren. Dies erhöht die Kontrollierbarkeit für die Nutzer erheblich, da eine 2D-konditionierte Diffusionsmodell (ControlNet) umgeformt wird, um das Lernen einer als NeRF parametrisierten 3D-Szene zu leiten und jede Ansicht der 3D-Szene mit dem gegebenen Textprompt und der handgezeichneten Skizze abzustimmen.
Diese Fortschritte in der Text-zu-Bild- und Text-zu-3D-Synthese sind ein Beispiel dafür, wie die Kombination von Kreativität und Technologie zu einer neuen Welle von Anwendungen führen kann, die die Grenzen dessen, was wir für möglich gehalten haben, weiter verschieben. Durch die Verbesserung der Kontrollmöglichkeiten über die Bildsynthese können wir erwarten, dass die kommenden Jahre noch innovativere und ausdrucksstärkere digitale Kunstwerke hervorbringen werden.
Quellen:
- Adobe präsentiert Learning Continuous 3D Words for Text-to-Image Generation. Verfügbar unter: https://huggingface.co/papers/2402.08654
- PIXART-δ: Schnelle und steuerbare Bildgenerierung mit Latent Consistency Models. Verfügbar unter: https://huggingface.co/papers/2401.05252
- Uni-ControlNet: All-in-One Kontrolle zu Text-zu-Bild-Diffusionsmodellen. Verfügbar unter: https://arxiv.org/abs/2305.16322
- Control3D: Auf dem Weg zur kontrollierbaren Text-zu-3D-Generierung. Verfügbar unter: https://arxiv.org/abs/2311.05461
- Adding Conditional Control to Text-to-Image Diffusion Models. Verfügbar unter: https://github.com/lllyasviel/ControlNet