Flux 1 Ein neuer Wettbewerber in der Welt der generativen Bild KIs

Kategorien:
No items found.
Freigegeben:
August 27, 2024

Flux.1: Der neue Herausforderer unter den Bild-KIs

Im Schwarzwald hat eine kleine Firma namens Black Forest Labs mit ihrer Bild-KI Flux.1 für Aufsehen gesorgt. Die generative Bild-KI, die erst seit wenigen Monaten auf dem Markt ist, tritt gegen etablierte Modelle wie Dall-E, Stable Diffusion und Midjourney an. Doch wie schlägt sich der Newcomer im Vergleich zu den bekannten Größen?

Die Entstehungsgeschichte von Flux.1

Hinter Flux.1 stehen Robin Rombach, Andreas Blattmann und Patrick Esser, die an der Ludwig-Maximilians-Universität München zu Künstlicher Intelligenz geforscht haben. Rombach und Blattmann waren bis März 2024 an der Entwicklung von Stable Diffusion beteiligt. Mit Flux.1 haben sie nun ein eigenes Modell entwickelt, das bereits in der kurzen Zeit seit seiner Veröffentlichung für Schlagzeilen sorgt.

Die verschiedenen KI-Modelle im Vergleich

Flux.1 Pro

Black Forest Labs bietet Flux in drei verschiedenen Varianten an: Flux.1 [schnell], Flux.1 [dev] und Flux.1 [pro]. Für diesen Artikel haben wir das Webinterface von Flux.1 [pro] beim Anbieter fal.ai genutzt. Pro Generierung kostet das Modell 0,05 US-Dollar, sodass man es für einen Dollar 20 Mal nutzen kann.

Stable Diffusion V3

Stable Diffusion wird von Stability AI in London entwickelt. Das Modell ist bei fal.ai etwas günstiger als Flux, für einen Dollar können 29 Durchgänge gestartet werden. Stability AI hat in den letzten Monaten aufgrund von CEO-Rücktritt, Stellenabbau und Urheberrechtsklagen für Schlagzeilen gesorgt. Trotz einer Bewertung von einer Milliarde Dollar geht dem Unternehmen angeblich das Geld aus.

Midjourney V6

Midjourney wird vom Forschungsinstitut Midjourney, Inc. in San Francisco entwickelt und ist seit Mitte 2022 über einen Discord-Server in einer Open-Beta verfügbar. Die Version 6 erschien Ende 2023. Die Nutzung von Midjourney ist kostenpflichtig und startet im Basic Plan bei 10 US-Dollar im Monat.

Dall-E 3

Dall-E wird von OpenAI entwickelt und ist seit Oktober 2023 für zahlende Abonnenten von ChatGPT Plus verfügbar. Ein Abonnement bei OpenAI startet bei 20 Dollar pro Monat.

Die Prompts und die Ergebnisse

Um die verschiedenen Modelle zu vergleichen, haben wir vier unterschiedliche Prompts verwendet: ein Raumschiff im Comic-Stil, einen realistischen Drachen an einem See, eine Bleistiftzeichnung einer Tanzgesellschaft und das Porträt eines Mannes, der in die Kamera winkt. Hier sind die Ergebnisse:

Prompt 1: Futuristischer Science-Fiction Comic

Prompt: A massive, ultra-modern spaceship hovers over a dystopian cityscape at sunset. The city is shrouded in mist, with glowing holograms and futuristic billboards. The spaceship is detailed, with many small lights and gleaming metal plates. Below in the city, tiny people and futuristic vehicles fly between the skyscrapers. The sky is bathed in intense orange and purple hues, all rendered in a bold, dynamic comic book style with exaggerated lines and vibrant colors.

Ergebnisse:

- Flux: Ähnlich einem Comic, lila und gelbe Farbtöne, dynamischer Comic-Stil - Midjourney: Ähnlich wie Flux, aber mehr in Richtung einer Graphic Novel - Stable Diffusion: Ähnlich wie Midjourney, aber mit weniger künstlerischer Darstellung - Dall-E: Blaue Farbtöne, weniger künstlerische Darstellung

Prompt 2: Fantasy-Drache

Prompt: A majestic dragon with gleaming emerald green scales rises from a crystal-clear lake in the middle of an ancient, enchanted forest. Waves break around the dragon, and you can see the intricate details of its scales and the reflection in the water. The trees in the background are densely covered with foliage, and magical lights shimmer between the leaves. A mysterious figure dressed in medieval attire stands on the shore, observing the scene.

Ergebnisse:

- Flux: Majestätischer Drache, detaillierte Schuppen, Reflexion im Wasser, mysteriöse Figur am Ufer - Midjourney: Ästhetisch ansprechend, beste Umsetzung laut unserem Test - Stable Diffusion: Kein Einbezug der mysteriösen Figur, nur der Drache zu sehen - Dall-E: Ähnlich wie Flux, aber weniger detailliert

Prompt 3: Historische Bleistiftzeichnung

Prompt: A lavish ball in a 17th-century palace. The ballroom is adorned with opulent chandeliers, gilded mirrors, and richly decorated wallpapers. Noble ladies in elaborate, multi-layered dresses and gentlemen in elegant suits with wigs are dancing a minuet. The intricate details of the fabrics, the expressions of the dancing guests, and the play of candlelight on the polished floors are depicted in a detailed pencil drawing, with fine shading and textures giving depth to the scene.

Ergebnisse:

- Flux: Bleistiftzeichnung, Probleme mit Gesichtern - Midjourney: Beste Zeichnung, Probleme mit Gesichtern - Stable Diffusion: Farbiges Bild, orientiert sich an Ölgemälden - Dall-E: Ähnlich wie Flux, aber weniger detailliert

Prompt 4: Porträt eines Mannes

Prompt: A photorealistic image of a man in his mid-30s. He is wearing a black-framed pair of glasses and has short, neatly styled hair. He is smiling warmly while waving at the viewer with his right hand. The background is softly blurred to keep the focus on the man, resembling a professional portrait photograph. The lighting is natural, highlighting his facial features and creating a friendly, approachable atmosphere. His clothing is casual yet stylish, with a simple, well-fitted shirt.

Ergebnisse:

- Flux: Photorealistisch, kaum als KI-Bild erkennbar - Midjourney: Beste Umsetzung, schwer von einem echten Foto zu unterscheiden - Stable Diffusion: Probleme mit der Darstellung der Hand - Dall-E: Eher wie ein Comic, weniger photorealistisch

Fazit und (fehlende) Grenzen

Dieser kurze Test kann nur einen ersten Eindruck von den Fähigkeiten und Unterschieden zwischen den generativen KI-Modellen vermitteln. Auf den ersten Blick ist Flux überraschend gut dafür, dass die KI noch nicht so lange entwickelt wird wie die Mitbewerber. In einem Ranking würde Flux bei den vier geprompteten Beispielen den zweiten Platz belegen. Midjourney bietet im Vergleich etwa fotorealistischere Bilder von Personen und scheint eine größere Bandbreite abzudecken.

Ein entscheidender Unterschied zwischen Flux und den anderen Modellen betrifft die Begrenzungen der KI. Während Dall-E sich weigert, Fotos von prominenten Personen zu erstellen, hat Flux kein Problem damit. Und dreht man im Webinterface von fal.ai die Safety Tolerance von Flux.1 [pro] nach oben, dann sind auch Bilder mit Waffen oder nackten Menschen in wenigen Sekunden generiert. Diese Fotos machen gerade vor allem bei X die Runde, denn zwischen X und Black Forest Labs gibt es eine Kooperation. Zahlende X-Abonnenten können Flux in dem sozialen Netzwerk nutzen, um Bilder für Postings zu generieren.

Bibliographie

- https://t3n.de/news/flux1-bild-ki-schwarzwald-dall-e-stable-diffusion-midjourney-1642176/ - https://www.finanznachrichten.de/nachrichten-2024-08/63067967-flux-im-test-so-schlaegt-sich-die-bild-ki-aus-dem-schwarzwald-gegen-dall-e-stable-diffusion-und-midjourney-397.htm - https://www.faz.net/aktuell/die-freiburger-bilder-ki-flux-trumpft-auf-19941385.html - https://www.reddit.com/r/de/comments/1ez93zx/flux_im_test_so_schl%C3%A4gt_sich_die_bildki_aus_dem/ - https://www.zeit.de/digital/2024-08/flux1-ki-bildgenerator-newsletter-kuenstliche-intelligenz - https://twitter.com/t3n/status/1826630175544467472 - https://marketing-ki.de/ki-im-einsatz/grosser-bild-ki-vergleich-2024-midjourney-vs-flux-1-dall-e-firefly-und-stable-diffusion/ - https://www.slashcam.de/news/single/Copyright-Sammelklage-gegen-Stability-AI-und-Midjo-18755.html - https://www.br.de/nachrichten/netzwelt/warum-diese-deutsche-bild-ki-vielleicht-zu-gut-ist,UKb8dWf
Was bedeutet das?