Interaktionsrevolution: Wie Handgestenerkennung die Computersteuerung neu definiert

Kategorien:

No items found.

Freigegeben:

Im Zeitalter der Digitalisierung entwickeln sich menschliche Interaktionen mit Computern stetig weiter. Eine der neuesten Errungenschaften in diesem Bereich ist die Erkennung von Handgesten, die es ermöglicht, Geräte ohne physischen Kontakt zu steuern. Apple hat kürzlich eine bahnbrechende Methode vorgestellt, die es Benutzern erlaubt, individuelle Handgesten mit nur einer Demonstration zu erstellen und vom System erkennen zu lassen.

Diese Technologie nutzt monokulare Kameras, um die Handbewegungen des Nutzers zu erfassen. Dank des Einsatzes von Transformern und Meta-Learning-Techniken ist es möglich, die Herausforderungen des Few-Shot-Learnings zu bewältigen. Im Unterschied zu früheren Ansätzen unterstützt Apples Methode eine Vielzahl von Gesten, einschließlich ein- und beidhändiger, statischer und dynamischer Bewegungen und berücksichtigt dabei verschiedene Blickwinkel.

Die Effektivität dieses Ansatzes wurde in einer Studie mit 21 Teilnehmern bestätigt, die 20 verschiedene Gesten demonstrierten. Die Ergebnisse zeigten eine durchschnittliche Erkennungsgenauigkeit von bis zu 97% nach nur einer Demonstration. Diese Technologie stellt einen bedeutenden Fortschritt in der Vision-basierten Gestenanpassung dar und bildet die Grundlage für zukünftige Entwicklungen in diesem Bereich.

Ein weiterer Forschungsstrang in Zusammenarbeit mit der Carnegie Mellon University und der University of Washington konzentriert sich auf die Anpassung von Handgesten auf an Handgelenken getragenen Geräten. Hierbei wurde ein Framework entwickelt, das es Nutzern erlaubt, mit minimalen Beispielen neue Gesten zu kreieren, ohne die Leistung bestehender Gestensets zu beeinträchtigen. Eine umfangreiche Studie mit über 500 Teilnehmern diente dazu, Daten zu sammeln und ein Erkennungsmodell zu trainieren, das auf Beschleunigungsmesser- und Gyroskopdaten basiert. Dieses Modell erreicht eine Genauigkeit von 95,7% und eine Falsch-positiv-Rate von nur 0,6 pro Stunde.

Darüber hinaus wurde ein Few-Shot-Learning-Framework entwickelt, das ein leichtgewichtiges Modell aus dem vortrainierten Modell ableitet, wodurch Wissen übertragen wird, ohne die Leistung zu verschlechtern. In einer Nutzerstudie mit 20 Personen wurden 12 neue Gesten hinzugefügt und das System erreichte dabei eine durchschnittliche Genauigkeit von 55,3%, 83,1% und 87,2% bei Verwendung von einem, drei oder fünf Beispielen. Gleichzeitig blieb die Erkennungsgenauigkeit und Falsch-positiv-Rate für das bestehende Gestenset unverändert.

Diese Forschungen zeigen vielversprechende Wege auf, wie Nutzer in Zukunft nicht mehr auf vorgegebene Gesten beschränkt sein werden, sondern neue Gesten entsprechend ihren individuellen Vorlieben und Fähigkeiten einführen können. Die benutzerfreundliche Umsetzung wurde in einer weiteren Studie zur Nutzererfahrung mit 20 Teilnehmern untersucht. Die Ergebnisse unterstreichen die Wirksamkeit, Erlernbarkeit und Nutzbarkeit des Anpassungsframeworks.

Die Forschung steht im Kontext eines wachsenden Trends zur multimodalen Interaktion, bei dem Sprachassistenten nun auch Gesten erkennen können, ohne dass ein expliziter Auslöser erforderlich ist. Dies spiegelt sich in den neuesten Entwicklungen von Smartwatches wider, die Methoden wie "Raise To Speak" einführen, bei denen Nutzer ihre Uhr anheben und sprechen, um mit Sprachassistenten zu interagieren.

Die Präsentation dieser Forschungsergebnisse erfolgte während der renommierten internationalen Konferenz für Mensch-Computer-Interaktion, CHI, die von Apple gesponsert wurde.

Es ist zu erwarten, dass diese Fortschritte in der Gestenerkennung neue Perspektiven für die Interaktion zwischen Menschen und Computern eröffnen werden und dass sie in eine Vielzahl von Anwendungen integriert werden, von Unterhaltungselektronik bis hin zu professionellen Arbeitsumgebungen.

Bibliographie:
- "Enabling Hand Gesture Customization on Wrist-Worn Devices", Apple Machine Learning Research, https://machinelearning.apple.com/research/enabling-hand-gesture
- Agrawal, A. et al. (2012). "Vision based Hand Gesture Recognition for Human Computer Interaction: A Survey", https://cgvr.informatik.uni-bremen.de/teaching/studentprojects/nui4cars/wp-content/uploads/2013/06/survey_Agrawal_AI2012_handRecod.pdf
- Rautaray, S. S., & Agrawal, A. (2015). "Vision Based Hand Gesture Recognition for Human-Computer Interaction: A Survey", ResearchGate, https://www.researchgate.net/publication/257512774_Vision_based_Hand_Gesture_Recognition_for_Human_Computer_Interaction_A_Survey
- Ong, E. J., & Bowden, R. (2012). "Vision-Based Hand Gesture Recognition for Human-Computer Interaction", ResearchGate, https://www.researchgate.net/publication/228617402_Vision-Based_Hand_Gesture_Recognition_for_Human-Computer_Interaction

Was bedeutet das?

No items found.