Stability AI hat kürzlich eine neue Variante ihres KI-Bildgenerators vorgestellt: Stable Diffusion 3 Medium. Diese abgespeckte Version soll auch auf normalen Computern laufen und wurde am 12. Juni 2024 veröffentlicht. Erste Tests und Nutzerreaktionen zeigen jedoch, dass das Modell insbesondere bei der Darstellung menschlicher Körper erhebliche Schwächen aufweist.
Stable Diffusion, das erstmals 2022 von der Ludwig-Maximilians-Universität München entwickelt wurde, hat sich als eines der führenden Open-Source-Modelle zur Generierung von Bildern aus Texteingaben etabliert. Das Ziel der Entwickler war es, eine Technologie zu schaffen, die nicht nur großen Firmen vorbehalten ist, sondern auf handelsüblichen PCs läuft. Dies wurde durch eine innovative zweistufige Architektur erreicht, die effiziente Bildgenerierung ermöglicht.
Stability AI hatte bei der Präsentation von Stable Diffusion 3 erklärt, dass das Modell mindestens ebenbürtig zu Konkurrenzprodukten wie Dall-E 3 oder Midjourney V6 sei. Allerdings zeigt sich, dass die abgespeckte Medium-Variante insbesondere mit der Darstellung menschlicher Körper Schwierigkeiten hat. Auf Plattformen wie Reddit gibt es zahlreiche Diskussionen und Beispiele, die die Fehler des Modells in diesem Bereich verdeutlichen.
Besonders problematisch ist die Darstellung menschlicher Gliedmaßen wie Hände und Füße. Nutzer berichten von teils grotesken und gruseligen Ergebnissen, wenn sie einfache Prompts wie "Mädchen, die im Gras liegen" verwenden. Diese Fehler haben zu einer Vielzahl an negativen Rückmeldungen in der Online-Community geführt.
Stability AI hatte den Launch von Stable Diffusion 3 Medium als wichtigen Meilenstein in der Entwicklung generativer KI gefeiert und ein neues Level von Fotorealismus versprochen. Das Modell sollte ohne komplizierte Schritte und mit geringen Hardwareanforderungen arbeiten. Doch die Realität zeigt, dass die Hochglanzbilder der Werbung nur dann überzeugen, wenn keine menschlichen Körper dargestellt werden.
Dass KI-Bildgeneratoren Schwierigkeiten haben, Hände korrekt darzustellen, ist kein neues Phänomen. Hände sind komplexe Strukturen mit vielen Details und variablen Positionen, was sie zu einer Herausforderung für generative Modelle macht. Stable Diffusion 3 Medium scheint dieses Problem jedoch auf ein neues Level zu heben, was die Frage aufwirft, ob Stability AI in der Lage sein wird, dieses Problem zu beheben.
Stable Diffusion 3 Medium wurde mit zwei Milliarden Parametern deutlich schlanker als die im April angekündigte vollwertige Version mit acht Milliarden Parametern. Das Modell wurde speziell entwickelt, um auch auf PCs mit handelsüblichen Prozessoren wie den neuen Ryzen-300-AI-CPUs von AMD gut zu laufen. Die Gewichte können unter einer nicht-kommerziellen Forschungslizenz und einer Creator-Lizenz von HuggingFace heruntergeladen werden.
Die Markteinführung von Stable Diffusion 3 Medium hat gemischte Reaktionen hervorgerufen. Während die Idee, ein leistungsfähiges Modell auf Consumer-Hardware lauffähig zu machen, gelobt wird, sind die praktischen Ergebnisse bei der Darstellung von Menschen enttäuschend. Stability AI steht nun vor der Herausforderung, diese Probleme zu adressieren und das Vertrauen der Nutzer zurückzugewinnen.
Stable Diffusion 3 Medium zeigt das Potenzial und die Herausforderungen generativer KI-Modelle. Während die Möglichkeit, anspruchsvolle Bildgeneratoren auf handelsüblichen PCs laufen zu lassen, spannend ist, müssen die Entwickler die bestehenden Probleme mit der Darstellung menschlicher Körper lösen. Die zukünftige Entwicklung und Weiteroptimierung von Stable Diffusion wird entscheidend dafür sein, ob das Modell langfristig erfolgreich sein kann.
Bibliographie
- https://t3n.de/news/stable-diffusion-3-ki-horror-bilder-1629937/
- https://www.finanznachrichten.de/nachrichten-2024-06/62482159-stable-diffusion-3-medium-abgespeckter-ki-bildgenerator-spuckt-horrorbilder-aus-397.htm
- https://newstral.com/de/article/de/1254295098/stable-diffusion-3-medium-abgespeckter-ki-bildgenerator-spuckt-horrorbilder-aus
- https://the-decoder.de/stable-diffusion-3-medium-neues-open-source-ki-bildmodell-jetzt-verfuegbar/
- https://www.medienmilch.de/
- https://www.finanznachrichten.de/nachrichten-medien/t3n.htm
- https://www.heise.de/news/KI-Update-kompakt-G-Assist-Stable-Diffusion-3-Datenminimierung-Wandern-9745622.html
- https://marketing-ki.de/ki-im-einsatz/stable-diffusion-3-release-am-12-06-2024/
- https://1e9.community/t/der-ki-bildgenerator-stable-diffusion-stammt-aus-muenchen-und-soll-ki-demokratisieren/18433