Sapiens Modelle revolutionieren die menschzentrierte Computer Vision

Kategorien:
No items found.
Freigegeben:
August 30, 2024

Sapiens: Ein Durchbruch in der Mensch-zentrierten Computer Vision

In den letzten Jahren hat die Computer Vision enorme Fortschritte gemacht, insbesondere im Bereich der menschenzentrierten Aufgaben. Meta hat kürzlich eine neue Familie von Modellen unter dem Namen "Sapiens" vorgestellt, die sich auf vier wesentliche Vision-Aufgaben konzentrieren: 2D-Pose-Schätzung, Körperteil-Segmentierung, Tiefenschätzung und Oberflächennormalen-Vorhersage. Diese Modelle wurden auf der Plattform Hugging Face sowie in Demos auf Gradio präsentiert.

Vier Kernaufgaben der Mensch-zentrierten Vision

Die Sapiens-Modelle wurden entwickelt, um vier entscheidende menschliche Vision-Aufgaben zu bewältigen:

- 2D-Pose-Schätzung - Körperteil-Segmentierung - Tiefenschätzung - Oberflächennormalen-Vorhersage

Die Modelle unterstützen native Hochauflösungsinferenz und sind einfach an individuelle Aufgaben anpassbar, indem sie Modelle feinabstimmen, die auf über 300 Millionen Bildern aus der freien Wildbahn vortrainiert wurden. Diese Vorgehensweise ermöglicht eine bemerkenswerte Generalisierung auf unvorhergesehene Daten, selbst wenn die gelabelten Daten knapp oder vollständig synthetisch sind.

Die Bedeutung der Vortrainierung

Ein wesentlicher Bestandteil des Erfolgs der Sapiens-Modelle ist ihre Vortrainierung auf einem umfangreichen Datensatz von menschlichen Bildern. Die Vortrainierung erfolgt unter Verwendung eines einfachen und effizienten Masked-Autoencoder-Ansatzes (MAE), der eine größere Menge an Bildern mit denselben Rechenressourcen verarbeiten kann. Die Modelle unterstützen eine native Eingangauflösung von 1024 Pixeln, was eine vierfache Zunahme der FLOPs im Vergleich zu bestehenden Vision-Backbones darstellt.

Feinabstimmung und Generalisierung

Nach der Vortrainierung werden die Modelle feinabgestimmt, um spezifische menschliche Aufgaben zu bewältigen. Dabei wird eine konsistente Encoder-Decoder-Architektur verwendet. Der Encoder wird mit den Gewichten aus der Vortrainierung initialisiert, während der Decoder, ein leichter und aufgaben-spezifischer Kopf, zufällig initialisiert wird. Beide Komponenten werden dann end-to-end feinabgestimmt.

Verbesserungen gegenüber bestehenden Methoden

Die Sapiens-Modelle zeigen signifikante Verbesserungen gegenüber früheren Methoden in verschiedenen Benchmarks:

- 7.6 mAP Verbesserung bei Humans-5K (Pose) - 17.1 mIoU Verbesserung bei Humans-2K (Körperteil-Segmentierung) - 22.4% relative RMSE Verbesserung bei Hi4D (Tiefe) - 53.5% relative Winkel-Fehler Verbesserung bei THuman2 (Oberflächennormalen)

Hochwertige Annotationen und synthetische Daten

Um die Qualität und Konsistenz der Annotationen zu gewährleisten, nutzt das Team eine Multi-View-Aufnahme-Setup zur Erfassung von Pose- und Segmentierungs-Annotationen. Zusätzlich werden mensch-zentrierte synthetische Daten für die Tiefen- und Normalenschätzung verwendet, indem detaillierte Scans von RenderPeople genutzt werden, um hochauflösende Tiefenkarten und Oberflächennormalen zu generieren.

Schlussfolgerung

Die Kombination aus domänenspezifischer großskaliger Vortrainierung und hochwertigen, wenn auch begrenzten Annotationen führt zu einer robusten Generalisierung in der freien Wildbahn. Insgesamt demonstriert die Methode eine effektive Strategie zur Entwicklung hochpräziser diskriminativer Modelle, die in realen Szenarien ohne die Notwendigkeit kostspieliger und vielfältiger Annotationen performen können.

Bibliografie

https://huggingface.co/facebook/sapiens https://huggingface.co/papers/2408.12569 https://arxiv.org/html/2408.12569v2 https://www.gradio.app/guides/using-hugging-face-integrations https://elib.dlr.de/186346/1/2021_weiqi_final_report.pdf
Was bedeutet das?