In der Welt der digitalen Bildbearbeitung hat sich ein neues Kapitel aufgetan: Apple hat in Zusammenarbeit mit der University of California, Santa Barbara, ein innovatives KI-Modell namens MGIE (MLLM-Guided Image Editing) entwickelt und vorgestellt, das es ermöglicht, Bilder anhand von Textanweisungen zu bearbeiten. Diese Neuerung stellt einen bedeutenden Fortschritt in der Schnittstelle zwischen künstlicher Intelligenz und grafischer Gestaltung dar.
MGIE basiert auf multimodalen großen Sprachmodellen (MLLMs), die es der KI ermöglichen, den Inhalt eines Bildes zu erkennen und entsprechend der eingegebenen Textprompts zu bearbeiten. Zu den möglichen Bearbeitungsfunktionen gehören das Hinzufügen oder Entfernen von Objekten, das Ändern der Beleuchtung, das Anwenden von Effekten und das Editieren von kleineren Details. Die Entwickler behaupten, dass MGIE sowohl automatische Metriken als auch menschliche Bewertungen deutlich verbessern kann, während es gleichzeitig eine wettbewerbsfähige Verarbeitungseffizienz beibehält.
Die Forscher von Apple haben eine Studie veröffentlicht, in der sie die Leistungsfähigkeit des MGIE-Modells unter verschiedenen Gesichtspunkten untersuchen. Sie demonstrieren, dass ausdrucksstarke Anweisungen entscheidend für die bildbasierte Bearbeitung sind und dass MGIE zu einer bemerkenswerten Verbesserung der automatischen Metriken und der menschlichen Evaluation führen kann, ohne dabei an Effizienz einzubüßen.
Ein Beispiel für die Anwendung von MGIE ist die Bearbeitung eines Bildes einer Pizza. Durch die Eingabe des Textprompts "mache sie gesünder" fügt das Modell der Pizza Gemüsebeläge hinzu. In einem anderen Fall wird ein dunkles Foto von Tigern in der Sahara aufgehellt, indem man das Modell auffordert, "mehr Kontrast hinzuzufügen, um mehr Licht zu simulieren".
Apple hat MGIE als Open-Source-Modell auf GitHub verfügbar gemacht und bietet darüber hinaus eine Web-Demo auf Hugging Face Spaces an, wie VentureBeat berichtet. Obwohl das Unternehmen keine konkreten Pläne für das Modell über die Forschung hinaus bekannt gegeben hat, deutet dieser Schritt darauf hin, dass Apple sein Engagement im Bereich der generativen KI verstärkt.
Dies könnte eine Reaktion auf die Fortschritte sein, die andere Technologieriesen wie Microsoft, Google und Meta in den letzten zwei Jahren gemacht haben. Während diese Unternehmen verfeinerte KI-gesteuerte Chatbots und sogar einige Bildgeneratoren veröffentlicht haben, war Apples Abwesenheit auf dem Markt der generativen KI bemerkenswert.
Interessanterweise hat Apple im Jahr 2023 mehr KI-Startups übernommen als andere Technologiegiganten, was darauf hindeutet, dass das Unternehmen seine Bemühungen in diesem Bereich verstärkt. Diese Akquisitionen und Fortschritte in der generativen KI werden von Apple größtenteils geheim gehalten, was zu Spekulationen darüber führt, wann diese Technologien öffentlich zugänglich gemacht werden und in welchen Geräten und Plattformen sie integriert sein könnten.
MGIE ist ein Beispiel dafür, wie KI-Technologien die Art und Weise, wie wir mit digitalen Medien interagieren, revolutionieren können, indem sie sie zugänglicher und intuitiver machen. Mit der fortschreitenden Entwicklung und Integration von KI in bildbearbeitungssoftware könnten Benutzer in Zukunft in der Lage sein, komplexe Bearbeitungsaufgaben auszuführen, ohne sich mit komplizierten Tools oder Techniken befassen zu müssen.
Quellen:
- 80.lv/articles/apple-ships-a-new-ai-for-editing-images-with-text-prompts/
- twitter.com/80Level/status/1755461139150840209
- theverge.com/2024/2/7/24065125/apple-generative-ai-image-editing-mgie-open-source-model
- zdnet.com/article/apples-new-ai-model-edits-photos-according-to-text-prompts-from-users/