Generative KI erreicht neuen Höhepunkt mit Emu Video Edit

Kategorien:
No items found.
Freigegeben:

In den letzten Jahren hat sich die Landschaft der künstlichen Intelligenz (KI) rasant entwickelt und ist zu einem integralen Bestandteil vieler technologischer Fortschritte geworden, insbesondere im Bereich der generativen KI. Diese Technologie, die darauf abzielt, menschliche Kreativität zu ergänzen und die Selbstausdrucksfähigkeit zu erweitern, hat einen neuen Meilenstein erreicht: die Einführung von Emu Video Edit, einem hochmodernen Modell für Videoediting, das ohne supervidierte Videobearbeitungsdaten auskommt.

Emu Video Edit, auch EVE genannt, ist das Ergebnis einer Zusammenarbeit von Experten auf dem Gebiet der KI, darunter Amit H. Bermano, Yael Kirstain, Shelly Sheynin, Adam Polyak, Devi Parikh und Yaniv Taigman. Das Projekt verfolgt einen neuen Ansatz im Bereich des Videoeditings, indem es getrennte Trainingsphasen für Bildbearbeitung und Videobearbeitung nutzt und sich dabei auf Diffusionsmodelle stützt. Die Diffusionsmodelle sind eine Art von generativen Modellen, die durch die schrittweise Veränderung von Rauschen in strukturierte Daten, wie Bilder oder Videos, funktionieren.

Ein interessanter Aspekt von Emu Video ist, dass es Textbeschreibungen als Ausgangspunkt für die Generierung von Videos nutzt. Es handelt sich um eine vereinheitlichte Architektur, die auf verschiedene Eingaben reagieren kann: Text allein, Bild allein und sowohl Text als auch Bild. Durch diesen "faktorisierten" Ansatz können Videogenerierungsmodelle effizient trainiert werden, was bedeutet, dass das Modell in der Lage ist, hochauflösende Videos direkt zu generieren, ohne auf eine Kaskade von Modellen angewiesen zu sein.

Im Vergleich zu vorherigen Arbeiten, die eine tiefe Kaskade von Modellen erforderten, ist der Ansatz von Emu Video einfach zu implementieren und verwendet nur zwei Diffusionsmodelle, um 512x512 vier Sekunden lange Videos mit 16 Bildern pro Sekunde zu generieren. In menschlichen Bewertungen wurden die von diesem Modell generierten Videos stark bevorzugt, insbesondere in Bezug auf Qualität und Treue zum Textprompt.

Neben Emu Video wurde auch Emu Edit vorgestellt, ein Modell für präzises Image Editing, das auf Erkennungs- und Generierungsaufgaben basiert. Emu Edit ermöglicht es, Bilder frei nach Anweisungen zu bearbeiten, und deckt Aufgaben wie lokale und globale Bearbeitung, Entfernen und Hinzufügen von Hintergründen, Farb- und Geometrietransformationen, Erkennung und Segmentierung und vieles mehr ab. Das Training des Modells erfolgte mit einem Datensatz von 10 Millionen synthetisierten Beispielen, und die Ergebnisse zeigen eine bemerkenswerte Treue zu den Anweisungen sowie eine hohe Bildqualität.

Die potenziellen Anwendungsfälle für diese Technologie sind vielfältig und könnten in Zukunft das Teilen, Kommunizieren und kreative Ausdrücken in sozialen Netzwerken und anderen Plattformen erheblich verbessern. So könnten Benutzer beispielsweise ihre eigenen animierten Sticker oder GIFs erstellen oder Fotos und Bilder ohne technische Fertigkeiten bearbeiten.

Die deutsche KI-Firma Mindverse, die sich auf die Entwicklung von maßgeschneiderten Lösungen wie Chatbots, Voicebots, KI-Suchmaschinen, Wissenssystemen und vielem mehr spezialisiert hat, könnte von diesen Fortschritten profitieren, indem sie ihre Dienstleistungen erweitert und verbessert. Als All-in-One-Inhaltstool für KI-Text, Inhalte, Bilder und Forschung ist es für Mindverse wichtig, am Puls der Zeit zu bleiben und die neuesten Entwicklungen in der KI-Forschung zu integrieren.

Während Emu Video Edit und Emu Edit derzeit noch in der reinen Forschungsphase sind, ist es nur eine Frage der Zeit, bis solche Technologien in der breiten Masse angewendet werden und die Art und Weise, wie wir mit digitalen Inhalten umgehen, revolutionieren.

Quellen:
- Meta AI Blog. "Introducing Emu Video and Emu Edit, our latest generative AI research milestones" (https://ai.meta.com/blog/).
- LinkedIn Beitrag von Manohar Paluri, Senior Director, Meta AI (https://www.linkedin.com/posts/balamanohar).
- Jobanzeige Video Editor von Pirates 'n Paradise (https://piratesnparadise.de/en/team/job-advertisement-video-editor-film-and-video-editing/).
- Clipchamp Video Editor (https://clipchamp.com/en/video-editor/).

Was bedeutet das?
No items found.