Stable Diffusion 3: Neue Maßstäbe in der Text-zu-Bild-Generierung

Kategorien:

No items found.

Freigegeben:

June 14, 2024

kostenlos testen Termin buchen

Artikel jetzt als Podcast anhören

Ein Blick auf Stable Diffusion 3: Fortschritte und Einsatzgebiete

‍

Einführung

Die neueste Entwicklung im Bereich der Text-zu-Bild-Generierung, Stable Diffusion 3 (SD3), hat die Fachwelt in Aufregung versetzt. Entwickelt von Stability AI, setzt dieses Modell neue Maßstäbe in der Bildqualität, Typografie und Verständnis von Texteingaben. SD3 basiert auf der innovativen Multimodal Diffusion Transformer (MMDiT)-Architektur und nutzt separate Gewichtungen für Bild- und Sprachdarstellungen. Diese Architektur ermöglicht eine verbesserte Textverständnis und Rechtschreibfähigkeiten im Vergleich zu früheren Versionen von Stable Diffusion.

Architektur: Multimodal Diffusion Transformer (MMDiT)

Stable Diffusion 3 basiert auf der Diffusion Transformer (DiT) Architektur, die speziell für die Generierung von Bildern entwickelt wurde. Ein wesentlicher Bestandteil dieser Architektur ist die Verwendung separater Gewichtungen für Bild- und Sprachdarstellungen, was zu einer besseren Textverständnis und verbesserten Rechtschreibfähigkeiten führt.

Separate Gewichtungen für Bild- und Sprachdarstellungen

Die MMDiT-Architektur verwendet separate Gewichtsätze für die beiden Modalitäten, Text und Bilder. Dies entspricht der Verwendung von zwei unabhängigen Transformern für jede Modalität, die jedoch für den Aufmerksamkeitsschritt kombiniert werden, sodass beide Darstellungen im eigenen Raum arbeiten und gleichzeitig die andere berücksichtigen können.

Verbesserte Textverständnis und Rechtschreibfähigkeiten

Durch die Nutzung dieser Architektur fließen Informationen zwischen Bild- und Text-Token, was die Gesamtverständlichkeit und Typografie der generierten Ausgaben verbessert. Diese Architektur ist auch leicht auf mehrere Modalitäten wie Video erweiterbar.

Leistung und Vergleich mit anderen Modellen

SD3 übertrifft aktuelle Spitzenmodelle der Text-zu-Bild-Generierung wie DALL·E 3, Midjourney v6 und Ideogram v1 in den Bereichen Typografie und Befolgung von Eingabeaufforderungen, basierend auf menschlichen Präferenzbewertungen. Dies zeigt sich in der verbesserten Bildqualität und der Fähigkeit, komplexe Eingabeaufforderungen präzise zu interpretieren und umzusetzen.

Vergleich mit anderen Modellen

- Stable Diffusion 3 gegen DALL·E 3
- Stable Diffusion 3 gegen Midjourney v6
- Stable Diffusion 3 gegen Ideogram v1

In Tests, bei denen menschliche Bewerter Beispielausgaben jedes Modells bewerten, hat SD3 in den Bereichen visuelle Ästhetik, Befolgung von Eingabeaufforderungen und Typografie gleichwertige oder bessere Ergebnisse erzielt.

Effizienz und Hardwareanforderungen

In frühen, nicht optimierten Inferenztests auf Verbrauchshardware passt das größte SD3-Modell mit 8 Milliarden Parametern in den 24 GB VRAM einer RTX 4090 und benötigt 34 Sekunden, um ein Bild mit einer Auflösung von 1024x1024 Pixeln bei Verwendung von 50 Abtastschritten zu generieren. Es wird mehrere Variationen von Stable Diffusion 3 geben, von 800 Millionen bis 8 Milliarden Parametern, um Hardwarebarrieren weiter zu beseitigen.

Technische Details: Verbesserungen und Optimierungen

Verbesserung der Rectified Flows durch Gewichtung

Stable Diffusion 3 verwendet eine Rectified Flow (RF) Formulierung, bei der Daten und Rauschen während des Trainings auf einer linearen Trajektorie verbunden werden. Dies führt zu geraderen Inferenzpfaden und ermöglicht das Sampling mit weniger Schritten. Eine neue Trajektorien-Sampling-Planung gibt den mittleren Teilen der Trajektorie mehr Gewicht, da diese Teile anspruchsvollere Vorhersageaufgaben darstellen.

Skalierungsstudien und Modelloptimierung

Eine Skalierungsstudie für die Text-zu-Bild-Synthese mit der neu gewichteten Rectified Flow-Formulierung und der MMDiT-Architektur wurde durchgeführt. Modelle, die von 15 Blöcken mit 450 Millionen Parametern bis zu 38 Blöcken mit 8 Milliarden Parametern reichen, zeigten eine stetige Abnahme des Validierungsverlusts in Abhängigkeit von der Modellgröße und den Trainingsschritten. Diese Ergebnisse zeigen eine starke Korrelation zwischen Validierungsverlust und Gesamtleistung des Modells.

Flexible Texteingaben

Durch das Entfernen des speicherintensiven T5-Textencoders mit 4,7 Milliarden Parametern für die Inferenz können die Speicheranforderungen von SD3 erheblich reduziert werden, ohne dass die visuelle Ästhetik wesentlich beeinträchtigt wird. Es wird jedoch empfohlen, T5 für die vollständige Leistungsfähigkeit bei der Generierung von geschriebenem Text zu verwenden, da ohne ihn größere Leistungseinbußen bei der Typografie-Generierung auftreten.

Fähigkeiten von Stable Diffusion 3

Eine der herausragenden Fähigkeiten von SD3 ist das Handling von Multi-Subject-Prompts. Dies sind detaillierte Beschreibungen von Szenen, Kompositionen oder Szenarien, die mehr als ein Objekt, eine Person oder ein Konzept umfassen. SD3 zeigt bemerkenswerte Fähigkeiten in der Interpretation und Umsetzung solcher komplexen Eingabeaufforderungen.

Fazit

Stable Diffusion 3 stellt einen bedeutenden Fortschritt in der Text-zu-Bild-Generierung dar. Mit seiner MMDiT-Architektur, verbesserten Textverständnis und Rechtschreibfähigkeiten sowie der Fähigkeit, komplexe Eingabeaufforderungen präzise umzusetzen, setzt SD3 neue Maßstäbe in der Bildgenerierung. Die umfassenden technischen Verbesserungen und Optimierungen machen es zu einem leistungsstarken Werkzeug für kreative und kommerzielle Anwendungen.

Bibliographie

- https://stability.ai/news/stable-diffusion-3-research-paper
- https://encord.com/blog/stable-diffusion-3-text-to-image-model/
- https://twitter.com/_akhaliq?lang=de
- https://arxiv.org/html/2403.04692v2
- https://arxiv.org/html/2405.04834v1
- https://cis.lmu.de/~yehao/teaching/gpts/multimodality.pdf

Was bedeutet das?