Diffusionsmodelle in KI und maschinellem Lernen als Wegbereiter für hochwertige Bild- und 3D-Inhalte

Kategorien:
No items found.
Freigegeben:

Artikel jetzt als Podcast anhören

In der Welt der künstlichen Intelligenz und maschinellen Lernens erweisen sich Diffusionsmodelle zunehmend als ein wichtiger Baustein bei der Erstellung hochwertiger Bilder und 3D-Modelle. Die neuesten Entwicklungen in diesem Bereich deuten darauf hin, dass Diffusionsmodelle, die auf der Transformer-Architektur basieren, bedeutsame Fortschritte in Bezug auf Qualität, Geschwindigkeit und Flexibilität verzeichnen können. Forscher der New York University und der University of California, Berkeley, haben kürzlich in einer neuen Studie namens "Scalable Diffusion Models with Transformers" gezeigt, wie sich die Leistung von Diffusionstransformatoren durch verschiedene Optimierungen verbessern lässt.

Die Diffusion Transformer (DiT) Modelle verwenden eine Transformer-Architektur anstelle des häufig verwendeten U-Net-Rückgrats, um latente Bildmodelle zu trainieren. Ein Hauptmerkmal der DiT-Modelle ist ihre Skalierbarkeit, die durch eine Erhöhung der Tiefe/Breite des Transformers oder der Anzahl der Eingabetoken erreicht wird. Die Forscher haben herausgefunden, dass DiT-Modelle mit einer höheren Anzahl von Gflops - eine Maßeinheit für die Komplexität des Vorwärtsdurchlaufs - konsistent niedrigere FID-Werte (Fréchet Inception Distance) erzielen. Dies ist ein Indikator für die Qualität generierter Bilder, wobei niedrigere Werte auf eine höhere Bildqualität hindeuten.

Die größten DiT-Modelle, die DiT-XL/2 Modelle, konnten alle bisherigen Diffusionsmodelle in den klassenkonditionalen ImageNet-Benchmarks für 512x512 und 256x256 Bildauflösungen übertreffen. Sie erreichten dabei einen FID von 2.27 bei einer Auflösung von 256x256, was als neuer Maßstab für die Bildqualität unter generativen Modellen gilt.

Ein weiterer Schwerpunkt der Forschung war die Untersuchung der Auswirkungen von Skalierungen auf die DiT-Modelle. Die Forscher experimentierten mit vier verschiedenen Modellkonfigurationen, die sich in Tiefe und Breite unterschieden: DiT-S, DiT-B, DiT-L und DiT-XL. Diese Modelle reichen von 33 Millionen bis 675 Millionen Parametern und von 0,4 bis 119 Gflops. Die Ergebnisse zeigten, dass eine Skalierung der Modellgröße und der Anzahl der Eingabetoken die Leistung der DiT-Modelle deutlich verbesserte.

Neben den Skalierungen wurden auch die Patchgrößen der Eingangsbilder angepasst. Die Patchgröße beeinflusst die Anzahl der Eingabetoken für den Transformer und somit indirekt die Gflops des Modells, ohne die Anzahl der Modellparameter wesentlich zu beeinflussen. Die Forscher trainierten für jede der vier Modellkonfigurationen drei Modelle mit Latent-Patchgrößen von 8, 4 und 2, was insgesamt 12 Modelle ergab.

Diese Entwicklungen sind nicht auf zweidimensionale Bilder beschränkt. Kürzlich wurde eine neue Methode namens FastDiT-3D vorgestellt, die für die effiziente Generierung von 3D-Punktwolken konzipiert ist und die Trainingskosten erheblich reduziert. FastDiT-3D verwendet eine neuartige voxelbewusste Maskierungsstrategie und erzielt eine Spitzenleistung bei einer extrem hohen Maskierungsrate von fast 99%. Zudem wurde eine Mischung aus Experten (Mixture of Experts, MoE) eingeführt, um die 3D-Generierung über mehrere Kategorien hinweg zu verbessern.

Die genannten Fortschritte in der Entwicklung von Diffusionstransformatoren und verwandten Technologien bieten faszinierende Möglichkeiten für die Generierung von Bild- und 3D-Inhalten. Mit der kontinuierlichen Verbesserung der Modelle und deren Skalierbarkeit ist es wahrscheinlich, dass solche Technologien in naher Zukunft eine noch größere Rolle in der künstlichen Intelligenz und in Anwendungen wie der automatisierten Bild- und Videoproduktion, der virtuellen Realität und der erweiterten Realität spielen werden.

Was bedeutet das?

Wie können wir Ihnen heute helfen?

Das Expertenteam von Mindverse freut sich darauf, Ihnen zu helfen.

Relativity benötigt die Kontaktinformationen, die Sie uns zur Verfügung stellen, um Sie bezüglich unserer Produkte und Dienstleistungen zu kontaktieren. Sie können sich jederzeit von diesen Benachrichtigungen abmelden. Informationen zum Abbestellen sowie unsere Datenschutzpraktiken und unsere Verpflichtung zum Schutz Ihrer Privatsphäre finden Sie in unseren Datenschutzbestimmungen.

No items found.