Fortschritte in KI-gestützter Erfassung von menschlichen Posen und Körperformen

Kategorien:
No items found.
Freigegeben:
June 14, 2024

Die Schätzung von menschlichen Posen und Körperformen (Expressive Human Pose and Shape Estimation, EHPS) ist ein aufstrebender Bereich der Künstlichen Intelligenz (KI), der sich mit der Erfassung und Analyse menschlicher Bewegungen und Formen aus Bildern oder Videos beschäftigt. Dies ist besonders relevant für Anwendungen in der Animation, in der Spieleentwicklung und in der Modeindustrie, wo eine präzise und realistische Darstellung menschlicher Figuren erforderlich ist.

Trotz beachtlicher Fortschritte in jüngster Zeit hängen viele der aktuellen Spitzentechnologien in diesem Bereich stark von einem begrenzten Satz von Trainingsdatensätzen ab. Dies führt zu Einschränkungen in der Leistungsfähigkeit über verschiedene Szenarien hinweg und behindert die Fähigkeit, sich an unbekannte Situationen anzupassen. Um diese Herausforderungen zu bewältigen, hat ein Forschungsteam unter der Leitung von Zhongang Cai von der Nanyang Technological University in Zusammenarbeit mit weiteren Institutionen wie der SenseTime Research, dem Shanghai AI Laboratory, der International Digital Economy Academy (IDEA) und anderen das Projekt "SMPLer-X" ins Leben gerufen. Durch Skalierung von Daten und Modellgröße zielt SMPLer-X darauf ab, das erste generalistische Grundlagenmodell für EHPS zu werden.

Das Projekt untersuchte systematisch insgesamt 32 EHPS-Datensätze, die eine breite Palette von Szenarien abdecken, die von Modellen, die nur auf einem einzelnen Datensatz trainiert wurden, nicht bewältigt werden können. Durch diese umfassende Untersuchung der Datensätze und die Optimierung des Trainingsansatzes konnten signifikante Fortschritte in der EHPS-Fähigkeit erzielt werden. Dazu gehörte auch die Auswahl von Datensätzen, die zu einem deutlichen Sprung in der Leistungsfähigkeit führten.

Ein weiterer Schwerpunkt des Projekts war die Skalierung der Modellgröße. Die Forscher nutzten Vision Transformers, um das Skalierungsgesetz der Modellgrößen in EHPS zu studieren. Durch Feinabstimmung (finetuning) konnten aus dem Grundlagenmodell SMPLer-X spezialisierte Modelle entwickelt werden, die in der Lage waren, noch bessere Leistungen zu erbringen. Das Grundmodell SMPLer-X lieferte durchgehend Spitzenleistungen in sieben Benchmarks, darunter AGORA (107,2 mm NMVE), UBody (57,4 mm PVE), EgoBody (63,6 mm PVE) und EHF (62,3 mm PVE ohne Feinabstimmung).

Die Ergebnisse dieses Projekts zeigen, dass große Datenmengen und große Modelle wesentlich dazu beitragen können, die Genauigkeit und Übertragbarkeit der menschlichen Pose- und Körperformenschätzung zu verbessern. Durch die Kombination verschiedener Datensätze und Modellgrößen gelang es den Forschern, ein ausgewogenes Modell zu entwickeln, das in allen Benchmarks hervorragende Ergebnisse erzielte und einen neuen Standard für die Ausbildung von KI-Modellen in diesem Bereich setzte.

Der Open-Source-Charakter des Projekts erlaubt es der wissenschaftlichen Gemeinschaft und der Industrie, auf die Forschungsergebnisse und das Modell zuzugreifen und diese weiterzuentwickeln. Der SMPLer-X-Code und die zugehörigen Materialien sind auf GitHub verfügbar, was Interessierten die Möglichkeit gibt, das Modell zu testen, zu trainieren und anzupassen.

Die vorliegende Forschung stellt einen wichtigen Schritt in der Entwicklung robuster und übertragbarer Modelle für die Schätzung von menschlichen Posen und Körperformen dar. Sie bietet wertvolle Erkenntnisse für zukünftige Datensammlungen und die Erstellung von Trainingsdatensätzen, die die Vielfalt realer Szenarien besser abbilden und somit das Potenzial von KI-Modellen in diesem Bereich weiter ausschöpfen.

Quellen:
- Cai, Zhongang, et al. "SMPLer-X: Scaling Up Expressive Human Pose and Shape Estimation." 2023. arXiv:2309.17448.
- https://github.com/caizhongang/SMPLer-X
- https://paperswithcode.com/paper/smpler-x-scaling-up-expressive-human-pose-and
- https://openreview.net/forum?id=n8hpztIuet
- https://ar5iv.labs.arxiv.org/html/2309.17448

Was bedeutet das?