Meta AI hat kürzlich das Segment Anything Model 2 (SAM 2) vorgestellt, ein fortschrittliches Modell zur Segmentierung von Objekten in sowohl Bildern als auch Videos. SAM 2 wurde entwickelt, um die Herausforderungen der promptbasierenden visuellen Segmentierung zu bewältigen und bietet eine einheitliche Lösung für Echtzeit-Anwendungen in verschiedenen visuellen Domänen.
Die ursprüngliche Version von SAM, die letztes Jahr veröffentlicht wurde, revolutionierte die Bildsegmentierung und ermöglichte es, Objekte in Bildern genau zu identifizieren. SAM wurde in verschiedenen Disziplinen eingesetzt, von der Wissenschaft über die Medizin bis hin zu sozialen Medien. SAM 2 erweitert diese Fähigkeiten nun auf Videos und bietet eine einheitliche Lösung für die Segmentierung in Echtzeit.
SAM 2 integriert die Fähigkeiten der Bild- und Videosegmentierung in einem einzigen Modell. Diese Vereinheitlichung vereinfacht die Bereitstellung und ermöglicht eine konsistente Leistung über verschiedene Medientypen hinweg. Das Modell nutzt eine flexible, promptbasierte Schnittstelle, die es Benutzern ermöglicht, Objekte durch verschiedene Prompt-Typen, wie Punkte, Begrenzungsrahmen oder Masken, zu spezifizieren.
Das Modell erreicht Echtzeit-Inferenzgeschwindigkeiten und verarbeitet etwa 44 Frames pro Sekunde. Dies macht SAM 2 besonders geeignet für Anwendungen, die sofortiges Feedback erfordern, wie Video-Editing und erweiterte Realität.
SAM 2 kann Objekte segmentieren, die es noch nie zuvor gesehen hat, und demonstriert starke Zero-Shot-Generalisation. Dies ist besonders nützlich in vielfältigen oder sich entwickelnden visuellen Domänen, in denen vordefinierte Kategorien möglicherweise nicht alle möglichen Objekte abdecken.
Benutzer können die Segmentierungsergebnisse durch zusätzliche Prompts iterativ verfeinern, was eine präzise Kontrolle über das Ergebnis ermöglicht. Diese Interaktivität ist entscheidend für die Feinabstimmung der Ergebnisse in Anwendungen wie Videoannotation oder medizinische Bildgebung.
SAM 2 enthält Mechanismen zur Bewältigung gängiger Herausforderungen bei der Videosegmentierung, wie Objektokklusion und Wiedererscheinen. Es verwendet einen ausgeklügelten Speichermechanismus, um Objekte über Frames hinweg zu verfolgen und Kontinuität zu gewährleisten, selbst wenn Objekte vorübergehend verdeckt sind oder die Szene verlassen und wieder betreten.
Der Speichermechanismus ermöglicht es SAM 2, zeitliche Abhängigkeiten und Okklusionen in Videodaten zu handhaben. Wenn Objekte sich bewegen und interagieren, zeichnet SAM 2 ihre Merkmale in einer Speicherbank auf. Wenn ein Objekt verdeckt wird, kann das Modell auf diesen Speicher zurückgreifen, um seine Position und Erscheinung vorherzusagen, wenn es wieder auftaucht.
In Situationen mit Ambiguität (z.B. überlappende Objekte) kann SAM 2 mehrere Masken vorhersagen. Diese Funktion ist entscheidend, um komplexe Szenen genau darzustellen, in denen eine einzelne Maske möglicherweise nicht ausreicht.
Der SA-V-Datensatz, der für das Training von SAM 2 entwickelt wurde, ist einer der größten und vielfältigsten Videosegmentierungsdatensätze, die verfügbar sind. Er umfasst:
SAM 2 hat in wichtigen Benchmarks zur Videosegmentierung überlegene Leistungen gezeigt:
SAM 2 ist bereit, Bereiche wie erweiterte Realität, virtuelle Realität, Robotik, autonome Fahrzeuge und Video-Editing zu revolutionieren. Diese Anwendungen erfordern oft eine zeitliche Lokalisierung über die Bildsegmentierung hinaus, was SAM 2 zu einer idealen Lösung macht.
Das Modell kann in größere Systeme integriert werden, um neuartige Erlebnisse zu schaffen. Seine Video-Objekt-Segmentierungsausgaben können als Eingaben für moderne Videogenerationsmodelle verwendet werden, was präzise Bearbeitungsmöglichkeiten ermöglicht. Die Erweiterbarkeit von SAM 2 erlaubt zukünftige Verbesserungen mit neuen Arten von Eingabe-Prompts, wodurch kreative Interaktionen in Echtzeit oder Live-Video-Kontexten erleichtert werden.
SAM 2 stellt einen bedeutenden Fortschritt in der visuellen Segmentierungstechnologie dar und bietet eine leistungsstarke, einheitliche Lösung für Echtzeit-Segmentierung in Bildern und Videos. Die vielfältigen Anwendungen und die Fähigkeit zur Zero-Shot-Generalisation machen es zu einem wertvollen Werkzeug für Forscher und Entwickler in verschiedenen Bereichen. Mit der Veröffentlichung von SAM 2 und dem SA-V-Datensatz unter offenen Lizenzen fördert Meta AI die Erforschung und Nutzung dieser Technologie durch die breitere KI-Gemeinschaft.