Fortschritte in der virtuellen Nachbildung menschlicher Interaktionen

Kategorien:

No items found.

Freigegeben:

June 14, 2024

In der Welt der Künstlichen Intelligenz und der Computer Vision ist es ein ständiges Bestreben, die Interaktion zwischen Menschen und ihrer Umgebung so realitätsgetreu wie möglich nachzubilden. Forscherinnen und Forscher aus der ganzen Welt arbeiten an fortschrittlichen Methoden, um menschliche Bewegungen und die Dynamik von Objekten in digitalen Umgebungen präzise zu modellieren. Ein bahnbrechender Fortschritt in diesem Bereich ist das TRUMANS-Projekt, das als umfangreichster und detailliertester Datensatz für menschliche Szenen-Interaktionen (HSI) gilt, der derzeit verfügbar ist.

Die TRUMANS-Datenbank umfasst über 15 Stunden menschlicher Interaktionen in 100 verschiedenen Innenräumen. Sie zeichnet sich durch die Erfassung von Ganzkörperbewegungen des Menschen und von Teilbewegungen von Objekten aus, wobei ein besonderes Augenmerk auf den Realismus von Kontakten gelegt wird. Diese Datenbasis ist besonders wertvoll, da sie es ermöglicht, physische Umgebungen in exakte virtuelle Modelle zu transformieren und umfangreiche Anpassungen an Aussehen und Bewegung sowohl von Menschen als auch von Objekten vorzunehmen, während die Interaktionsgenauigkeit beibehalten wird.

Ein bedeutender Aspekt der TRUMANS-Datenbank ist ihre Skalierbarkeit. Die Forschergruppe hat eine neuartige, auf Diffusion basierende autoregressive Methode entwickelt, die effizient HSI-Sequenzen jeder Länge generieren kann. Diese Methode berücksichtigt sowohl den Kontext der Szene als auch die beabsichtigten Aktionen. In Experimenten zeigte dieser Ansatz eine bemerkenswerte Zero-Shot-Allgemeingültigkeit auf einer Reihe von 3D-Szenendatensätzen, wie zum Beispiel PROX, Replica, ScanNet und ScanNet++. Die erzeugten Bewegungen ahmen die ursprünglichen, mit Motion-Capture-Technologie aufgenommenen Sequenzen eng nach, was durch quantitative Experimente und Humanstudien bestätigt wurde.

Ein weiterer innovativer Ansatz zur Synthese vielfältiger menschlicher Bewegungen in 3D-Innenräumen stammt von einer Gruppe von Forschenden, die ein auf Verstärkungslernen basierendes Verfahren vorschlagen. Dieses ermöglicht es virtuellen Menschen, sich realistisch und autonom in 3D-Szenen zu bewegen und mit Objekten zu interagieren. Anstatt auf Trainingssequenzen mit aufgezeichneten menschlichen Bewegungen und den Interaktionen mit der 3D-Umgebung zu vertrauen, die teuer und schwierig zu erfassen sind, nutzt diese Methode latente Bewegungsaktionsräume, die realistischen Bewegungsprimitiven entsprechen. Diese werden aus groß angelegten Bewegungsdaten mithilfe eines leistungsstarken generativen Bewegungsmodells gelernt. Für die Navigation in einer 3D-Umgebung wird eine szenenbewusste Politik mit neuartigen Zustands- und Belohnungskonzepten für die Kollisionsvermeidung vorgeschlagen. In Kombination mit auf Navigationsnetzen basierenden Pfadfindungsalgorithmen ermöglicht dieser Ansatz die Synthese vielfältiger menschlicher Bewegungen in 3D-Innenräumen und die Vermeidung von Hindernissen.

Zusammenfassend lässt sich sagen, dass die Fortschritte in der Modellierung von HSI einen bedeutenden Einfluss auf die Entwicklung von künstlicher Intelligenz und Robotik haben werden. Die Fähigkeit, menschliche Bewegungen und Interaktionen mit Objekten in einer virtuellen Welt realistisch nachzubilden, öffnet nicht nur neue Wege für die Unterhaltung und das Training in simulierten Umgebungen, sondern hat auch potenzielle Anwendungen in der ergonomischen Gestaltung, der Sicherheitstechnik und der Entwicklung autonomer Systeme. Mit TRUMANS und ähnlichen Projekten rückt die Vision einer nahtlosen Integration von KI-generierten Entitäten in unsere physische Welt in greifbare Nähe.

Quellen:
1. Nan Jiang et al., "Scaling Up Dynamic Human-Scene Interaction Modeling", arXiv:2403.08629 [cs.CV].
2. Kaifeng Zhao et al., "Synthesizing Diverse Human Motions in 3D Indoor Scenes", arXiv:2305.12411 [cs.CV].
3. Publikationen am KIT (Karlsruher Institut für Technologie), https://publikationen.bibliothek.kit.edu/1000168221/152209863.
4. Jiang et al., "Full-Body Articulated Human-Object Interaction", ICCV 2023 Paper, https://openaccess.thecvf.com/content/ICCV2023/papers/Jiang_Full-Body_Articulated_Human-Object_Interaction_ICCV_2023_paper.pdf.

Was bedeutet das?