Flux.1 aus dem Schwarzwald: Neuartige Entwicklungen in der KI-gestützten Bildgenerierung

Kategorien:
No items found.
Freigegeben:
September 2, 2024

Die Schwarzwälder Bild-KI Flux.1: Eine Revolution in der KI-Bildgenerierung

In der Welt der künstlichen Intelligenz (KI) hat sich in den letzten Jahren viel getan. Insbesondere die generative Bild-KI hat enorme Fortschritte gemacht. Modelle wie Dall-E, Stable Diffusion und Midjourney haben die Art und Weise, wie wir Bilder erstellen und wahrnehmen, revolutioniert. Doch nun gibt es einen neuen Herausforderer aus dem Schwarzwald: Flux.1. Diese Bild-KI, entwickelt von der Freiburger Firma Black Forest Labs, sorgt derzeit für viel Aufsehen und lässt die etablierten Modelle alt aussehen.

Hintergrund und Entwicklung

Black Forest Labs, ein kleines Unternehmen aus Freiburg mit nur 14 Mitarbeiter:innen, hat Flux.1 entwickelt. Trotz der geringen Größe und der kurzen Existenzzeit des Unternehmens hat die generative Bild-KI Flux.1 beeindruckende Ergebnisse erzielt. Die Gründer Robin Rombach, Andreas Blattmann und Patrick Esser haben an der Ludwig-Maximilians-Universität München zum Thema KI geforscht und waren bis März 2024 an der Entwicklung von Stable Diffusion beteiligt. Dieses Fachwissen hat maßgeblich zur Entwicklung von Flux.1 beigetragen.

Die verschiedenen KI-Modelle

Flux.1 Pro

Black Forest Labs bietet Flux in drei verschiedenen Modellen an: Flux.1 [schnell], Flux.1 [dev] und Flux.1 [pro]. Für diesen Artikel verwenden wir das Webinterface von Flux.1 [pro] beim Anbieter fal.ai. Dort kostet die Generierung eines Bildes 0,05 US-Dollar. Das Modell zeichnet sich durch seine schnelle und effiziente Bildgenerierung aus.

Stable Diffusion V3

Stable Diffusion V3, entwickelt von Stability AI in London, ist ein weiteres führendes Modell in der Bild-KI-Branche. Trotz einiger interner Turbulenzen bei Stability AI, einschließlich eines CEO-Rücktritts und eines Stellenabbaus, bleibt Stable Diffusion ein starkes Modell. Die Generierung eines Bildes kostet hier 0,034 US-Dollar, was es etwas günstiger als Flux macht.

Midjourney V6

Midjourney, entwickelt von Midjourney, Inc. in San Francisco, ist seit Mitte 2022 in einer Open-Beta verfügbar. Die Nutzung ist kostenpflichtig und beginnt bei 10 US-Dollar im Monat. Die neueste Version, Midjourney V6, zeichnet sich durch eine verbesserte Handhabung von Texten in Bildern aus.

Dall-E 3

Dall-E 3, entwickelt von OpenAI, ist wohl das bekannteste Modell in der Branche. Seit Oktober 2023 ist Dall-E 3 für zahlende Abonnent:innen von ChatGPT Plus verfügbar. Die Integration in ChatGPT macht die Nutzung besonders einfach und benutzerfreundlich.

Test und Vergleich

Um die Fähigkeiten von Flux.1 zu testen, haben wir es gegen Stable Diffusion XL, Midjourney V6 und Dall-E 3 antreten lassen. Wir haben vier verschiedene Prompts verwendet, um die Modelle zu testen: ein futuristisches Raumschiff im Comic-Stil, einen realistischen Drachen an einem See, eine Bleistiftzeichnung einer Tanzgesellschaft und das Porträt eines Mannes.

Prompt 1: Futuristischer Science-Fiction Comic

Prompt: A massive, ultra-modern spaceship hovers over a dystopian cityscape at sunset. The city is shrouded in mist, with glowing holograms and futuristic billboards. The spaceship is detailed, with many small lights and gleaming metal plates. Below in the city, tiny people and futuristic vehicles fly between the skyscrapers. The sky is bathed in intense orange and purple hues, all rendered in a bold, dynamic comic book style with exaggerated lines and vibrant colors.

Die Ergebnisse von Flux, Midjourney und Stable Diffusion waren überwiegend in Lila und Gelb gehalten und erinnerten stark an Comic-Stile. Dall-E stach mit blauen Farbtönen heraus und wirkte weniger künstlerisch.

Prompt 2: Fantasy-Drache

Prompt: A majestic dragon with gleaming emerald green scales rises from a crystal-clear lake in the middle of an ancient, enchanted forest. Waves break around the dragon, and you can see the intricate details of its scales and the reflection in the water. The trees in the background are densely covered with foliage, and magical lights shimmer between the leaves. A mysterious figure dressed in medieval attire stands on the shore, observing the scene.

Hier zeigte Midjourney das ästhetisch ansprechendste Ergebnis, während Stable Diffusion Schwierigkeiten hatte, die "mysterious figure" in das Bild zu integrieren.

Prompt 3: Historische Bleistiftzeichnung

Prompt: A lavish ball in a 17th-century palace. The ballroom is adorned with opulent chandeliers, gilded mirrors, and richly decorated wallpapers. Noble ladies in elaborate, multi-layered dresses and gentlemen in elegant suits with wigs are dancing a minuet. The intricate details of the fabrics, the expressions of the dancing guests, and the play of candlelight on the polished floors are depicted in a detailed pencil drawing, with fine shading and textures giving depth to the scene.

Während Stable Diffusion farbige Bilder generierte, setzten Flux, Midjourney und Dall-E die geforderte Bleistiftzeichnung besser um. Alle vier Modelle hatten jedoch Schwierigkeiten mit den Gesichtern der Personen.

Prompt 4: Porträt eines Mannes

Prompt: A photorealistic image of a man in his mid-30s. He is wearing a black-framed pair of glasses and has short, neatly styled hair. He is smiling warmly while waving at the viewer with his right hand. The background is softly blurred to keep the focus on the man, resembling a professional portrait photograph. The lighting is natural, highlighting his facial features and creating a friendly, approachable atmosphere. His clothing is casual yet stylish, with a simple, well-fitted shirt.

Midjourney lieferte hier das fotorealistischste Ergebnis, während Dall-E eher wie ein Comic wirkte. Flux und Stable Diffusion hatten Schwierigkeiten mit der Darstellung der Hände.

Fazit und Grenzen

Dieser kurze Test zeigt, dass Flux.1 durchaus mit den etablierten Modellen mithalten kann. Besonders beeindruckend ist die Bildqualität und die kreative Umsetzung. Allerdings gibt es einen entscheidenden Unterschied: Flux hat weniger Einschränkungen als die anderen Modelle. Während Dall-E beispielsweise keine Bilder von prominenten Personen generiert, hat Flux damit kein Problem. Dies wirft jedoch Fragen zur Ethik und zum Missbrauchspotential auf.

Die Kooperation zwischen Black Forest Labs und X (ehemals Twitter) ermöglicht es zahlenden Abonnent:innen, Flux direkt im sozialen Netzwerk zu nutzen. Dies könnte erklären, warum manche kontroversen Bilder derzeit auf X die Runde machen.

Ausblick

Die Entwicklung von Flux.1 zeigt, dass auch kleine Unternehmen aus Deutschland in der Lage sind, bedeutende Fortschritte in der KI-Technologie zu erzielen. Mit weiteren Verbesserungen und einer stärkeren Fokussierung auf ethische Fragen könnte Flux.1 in Zukunft eine noch größere Rolle in der Welt der generativen Bild-KI spielen.

Die generative Bild-KI ist ein spannendes Feld, das noch viel Potenzial birgt. Flux.1 ist ein beeindruckender Schritt in die richtige Richtung und zeigt, dass Innovationen nicht nur aus den großen Tech-Zentren der Welt kommen können.

Quellen:

- https://t3n.de/news/bild-ki-flux-dall-e-stable-diffusion-midjourney-alt-1642176/ - https://www.youtube.com/watch?v=FaKzO8rlLwY - https://www.finanznachrichten.de/nachrichten-2024-08/63067967-flux-im-test-so-schlaegt-sich-die-bild-ki-aus-dem-schwarzwald-gegen-dall-e-stable-diffusion-und-midjourney-397.htm - https://www.faz.net/aktuell/die-freiburger-bilder-ki-flux-trumpft-auf-19941385.html - https://meedia.de/news/beitrag/17472-black-forest-labs-und-flux-1-vom-superstar-zum-buhmann-in-fuenf-tagen.html - https://marketing-ki.de/ki-im-einsatz/grosser-bild-ki-vergleich-2024-midjourney-vs-flux-1-dall-e-firefly-und-stable-diffusion/ - https://t3n.de/ - https://www.zeit.de/digital/2024-08/flux1-ki-bildgenerator-newsletter-kuenstliche-intelligenz - https://www.reddit.com/r/de/comments/1ez93zx/flux_im_test_so_schl%C3%A4gt_sich_die_bildki_aus_dem/ - https://de.linkedin.com/pulse/flux1-die-bild-ki-ohne-ethik-und-moral-tobias-haff-y9zze?trk=articles_directory
Was bedeutet das?