Die künstliche Intelligenz (KI) hat in den letzten Jahren enorme Fortschritte gemacht, insbesondere im Bereich der Bildsynthese. Eine der neuesten Entwicklungen in diesem Bereich ist das Phased Consistency Model (PCM), das als eine der leistungsfähigsten Strategien zur Beschleunigung der Bildgenerierung gilt. Diese Technologie stellt eine bedeutende Erweiterung der ursprünglichen Konsistenzmodelle dar und zeigt beeindruckende Verbesserungen bei der Erstellung hochauflösender, textbasierter Bilder.
Konsistenzmodelle (Consistency Models, CM), die von Yang Song et al. vorgeschlagen wurden, sind eine vielversprechende neue Familie generativer Modelle. Diese Modelle können hochwertige Bilder in sehr wenigen Schritten generieren, normalerweise in nur zwei Schritten, sowohl in unbedingten als auch in klassenspezifischen Einstellungen. Frühere Arbeiten, wie das Latent Consistency Model (LCM), versuchten, diese Leistungsfähigkeit auf textbasierte Generierung zu übertragen, scheiterten jedoch oft an zufriedenstellenden Ergebnissen, insbesondere bei niedrigen Schrittzahlen (1-4 Schritte).
- LCM mangelt es an Flexibilität bei der Auswahl der CFG und ist unempfindlich gegenüber negativen Eingabeaufforderungen.
- LCM erzeugt keine konsistenten Ergebnisse bei unterschiedlichen Inferenzschritten. Die Ergebnisse sind verschwommen, wenn der Schritt zu groß (stochastischer Sampling-Fehler) oder zu klein (Unfähigkeit) ist.
- LCM erzeugt bei niedrigen Schrittzahlen schlechte und verschwommene Ergebnisse.
Das Phased Consistency Model (PCM) generalisiert den Designraum der Konsistenzmodelle für hochauflösende, textbasierte Bildgenerierung und analysiert und behebt die Einschränkungen der vorherigen Arbeiten. PCM basiert auf der Destillation, die im Allgemeinen einfacher zu erlernen ist, und zeigt signifikante Leistungsverbesserungen im Vergleich zu bestehenden Modellen.
Ein Diffusionsmodell definiert aus kontinuierlicher Zeitperspektive einen bedingten Wahrscheinlichkeitsweg. Eine bemerkenswerte Eigenschaft dieses Modells ist die Existenz einer Rückwärtszeit-ODE-Trajektorie, die keine zusätzliche Stochastizität einführt und dennoch die vordefinierte Randverteilung erfüllt. Konsistenzmodelle zielen darauf ab, den Lösungspunkt der ODE-Trajektorie entweder durch Destillation oder Training direkt zu erlernen.
Das Consistency Trajectory Model (CTM) weist darauf hin, dass CM unter Stochastizitätsfehlerakkumulation leiden, wenn sie für die Mehrschritt-Sampling für bessere Probenqualität angewendet werden. PCM hingegen löst dieses Problem und ist viel einfacher zu trainieren. Der Kern der Methode besteht darin, die gesamte ODE-Trajektorie in mehrere Sub-Trajektorien zu unterteilen.
PCM kann textbasierte Bildsynthese mit guter Qualität in 1, 2, 4, 8 und 16 Schritten erreichen. Es zeigt fortschrittliche Generierungsergebnisse im Vergleich zu aktuellen leistungsstarken schnellen Generierungsmodellen wie SDXL-Turbo und InstaFlow.
Das Phased Consistency Model stellt eine bedeutende Verbesserung in der Generierung hochauflösender, textbasierter Bilder dar. Durch die Überwindung der Einschränkungen früherer Modelle zeigt PCM beeindruckende Ergebnisse sowohl in der Bildqualität als auch in der Effizienz der Generierung. Diese Entwicklungen eröffnen neue Möglichkeiten in der KI-gestützten Bildsynthese und könnten weitreichende Anwendungen in verschiedenen Branchen finden.
https://github.com/G-U-N/Phased-Consistency-Model
https://gradio.app/
https://g-u-n.github.io/projects/pcm/
https://www.linkedin.com/posts/gradio_super-image-enhancement-on-zerogpu-uses-activity-7198214466163941376-KN9n
https://openreview.net/forum?id=duBCwjb68o
https://www.gradio.app/changelog
https://arxiv.org/abs/2307.01952
https://github.com/AUTOMATIC1111/stable-diffusion-webui/wiki/Features