Meta hat kürzlich die Einführung seiner neuen Sapiens-Modelle angekündigt, die große Fortschritte in der menschzentrierten visuellen Erkennungstechnologie darstellen. Diese Modelle können Aufgaben wie 2D-Posenschätzung, Körperteilsegmentierung, Tiefenschätzung und Oberflächennormalen-Vorhersage effektiv bewältigen. Trotz der beeindruckenden Fähigkeiten dieser Modelle haben viele Entwickler jedoch Schwierigkeiten, den Code in die Praxis umzusetzen.
Die Sapiens-Modelle sind auf über 300 Millionen Bildern von Menschen in ihrer natürlichen Umgebung vortrainiert und bieten eine bemerkenswerte Generalisierungsfähigkeit unter unkontrollierten Bedingungen. Diese Modelle wurden nativ mit einer Bildauflösung von 1024 x 1024 Pixeln und einer Patch-Größe von 16 Pixeln trainiert, was sie besonders leistungsfähig macht. Die Sapiens-Modelle bieten eine umfassende Suite für menschzentrierte visuelle Aufgaben, darunter:
Obwohl die Sapiens-Modelle beeindruckende Fähigkeiten bieten, ist die Implementierung des Codes eine Herausforderung. Die Repository-Struktur auf GitHub ist umfangreich und enthält viele Abhängigkeiten, die für die vollständige Nutzung der Modelle erforderlich sind. Diese Komplexität kann für Entwickler, die neu in der Arbeit mit diesen Modellen sind, überwältigend sein.
Ein Entwickler, Dan Bochman, hat auf X (vormals Twitter) seine Erfahrungen geteilt und eine kleine Web-App entwickelt, um die Körperteilsegmentierungsmodelle von Sapiens auszuprobieren. Er bemerkt jedoch, dass die Modelle auf Free-Tier-Hardware langsam laufen und dass der Code zwar offen ist, aber auf besserer Hardware oder lokal ausgeführt werden muss, um optimale Ergebnisse zu erzielen.
Meta empfiehlt zwei Installationsmethoden für die Sapiens-Modelle: die Lite-Installation für Inferenzzwecke und die vollständige Installation für das Training. Die Lite-Installation bietet optimierte Inferenz mit minimalen Abhängigkeiten (nur PyTorch, numpy und cv2). Für die vollständige Installation wird ein neues Conda-Umfeld erstellt und alle notwendigen Abhängigkeiten installiert.
Für Benutzer, die hauptsächlich vorhandene Modelle im Inferenzmodus ausführen möchten, empfiehlt sich die Sapiens-Lite-Installation:
git clone git@github.com:facebookresearch/sapiens.git export SAPIENS_ROOT=/path/to/sapiens cd $SAPIENS_ROOT/_install ./conda.sh
Nach der Installation müssen die Checkpoints von Hugging Face heruntergeladen werden. Der Verzeichnisstruktur der Checkpoints sollte wie folgt aussehen:
sapiens_host/ ├── detector/ │ └── checkpoints/ │ └── rtmpose/ ├── pretrain/ │ └── checkpoints/ │ ├── sapiens_0.3b/ │ ├── sapiens_0.6b/ │ ├── sapiens_1b/ │ └── sapiens_2b/ ├── pose/ └── seg/ └── depth/ └── normal/
Für die Replikation des vollständigen Trainingssetups sollte das bereitgestellte Installationsskript ausgeführt werden:
cd $SAPIENS_ROOT/_install ./conda.sh
Das Finetuning der Sapiens-Modelle ist relativ einfach und kann für mehrere menschzentrierte visuelle Aufgaben durchgeführt werden. Zu den Aufgaben, die mit diesen Modellen feinabgestimmt werden können, gehören:
Meta plant, in naher Zukunft detaillierte Trainingsanleitungen für diese Aufgaben bereitzustellen.
Meta erkennt die Arbeit von OpenMMLab an, von der dieses Projekt profitiert. Für Fragen oder Probleme können Benutzer ein Issue im Repository eröffnen. Das Projekt ist unter der Apache 2.0-Lizenz lizenziert, und Benutzer, die Sapiens in ihrer Forschung verwenden, werden gebeten, die entsprechende BibTeX-Eintragung zu verwenden.
Die Sapiens-Modelle von Meta stellen einen bedeutenden Fortschritt in der menschzentrierten visuellen Erkennung dar. Trotz der Herausforderungen bei der Implementierung bieten sie beispiellose Möglichkeiten für Entwickler und Forscher. Mit der richtigen Unterstützung und Anleitung können diese Modelle dazu beitragen, neue Standards in der Computer Vision zu setzen.
Die Community wird ermutigt, sich aktiv zu beteiligen und Feedback zu geben, um die Nutzung und Weiterentwicklung dieser Modelle zu fördern.