Intuitive Bild- und Videobearbeitung durch blickgesteuerte Technologien

Kategorien:
No items found.
Freigegeben:
November 8, 2024

Artikel jetzt als Podcast anhören

Blickgesteuerte Inhaltserstellung: GazeGen ermöglicht intuitive Bild- und Videobearbeitung

Die Interaktion mit digitalen Inhalten entwickelt sich ständig weiter. Ein neues System namens GazeGen nutzt nun die Blicksteuerung, um die Erstellung visueller Inhalte intuitiver zu gestalten. Entwickelt von einem Team um He-Yen Hsieh, ermöglicht GazeGen das Hinzufügen, Löschen, Verschieben und Ändern von Objekten in Bildern sowie die Konvertierung von statischen Bildern in Videos – alles gesteuert durch den Blick des Nutzers.

Das Herzstück von GazeGen ist der DFT Gaze (Distilled and Fine-Tuned Gaze) Agent, ein extrem ressourcenschonendes Modell mit nur 281.000 Parametern. Dieses Modell ermöglicht präzise Echtzeit-Blickvorhersagen, angepasst an die Augen des jeweiligen Nutzers, und funktioniert sogar auf kleinen Edge-Geräten wie dem Raspberry Pi 4. Die Blickdaten werden von DFT Gaze verarbeitet und an die Bildgenerierungskomponente weitergeleitet, die die gewünschten Änderungen am Bild vornimmt.

Funktionsweise und Anwendungsmöglichkeiten

GazeGen nutzt fortschrittliche Techniken der Objekterkennung und generativen KI. Der Nutzer fixiert mit seinem Blick den Bereich im Bild, den er verändern möchte. Möchte er beispielsweise ein Objekt hinzufügen, wählt er dieses aus einer Bibliothek aus und platziert es mit seinem Blick an der gewünschten Stelle. Ähnlich funktioniert das Löschen, Verschieben und die Veränderung von Oberflächenmaterialien. Auch die Animation von Objekten und die Erstellung kurzer Videos sind durch Blicksteuerung möglich.

Die Anwendungsmöglichkeiten von GazeGen sind vielfältig. Im Bereich der Bildbearbeitung bietet das System eine intuitive und effiziente Alternative zu herkömmlichen Methoden. Künstler könnten mit GazeGen neue kreative Wege beschreiten, und auch im Bildungsbereich oder in der Therapie könnte die Blicksteuerung wertvolle Unterstützung leisten. Denkbar sind auch Anwendungen in der Industrie, beispielsweise bei der Qualitätskontrolle oder der Steuerung von Maschinen.

Technologischer Hintergrund: DFT Gaze

Die Echtzeit-Blickerkennung von GazeGen wird durch den DFT Gaze Agent ermöglicht. Dieses kompakte und leistungsstarke Modell entstand durch ein neuartiges Verfahren der Wissensdestillation aus einem zehnmal größeren Modell. Durch die Kombination von Wissensdestillation mit einem maskierten Autoencoder und die Feinabstimmung mit Adaptern erreicht DFT Gaze eine hohe Genauigkeit und personalisierte Blickvorhersagen mit minimalem Benutzerinput.

Die geringe Latenz von DFT Gaze ist entscheidend für die flüssige und intuitive Nutzung von GazeGen. Tests auf den Benchmarks AEA und OpenEDS2020 bestätigen die niedrige Winkelabweichung und die geringe Latenz auf dem Edge-Gerät Raspberry Pi 4.

Zukunftsperspektiven

GazeGen steht noch am Anfang seiner Entwicklung, doch das Potenzial der blickgesteuerten Inhaltserstellung ist enorm. Zukünftige Forschung könnte sich auf die Verbesserung der Genauigkeit und Robustheit der Blickerkennung sowie auf die Erweiterung der Funktionalitäten von GazeGen konzentrieren. Die Integration weiterer KI-Technologien, wie beispielsweise der Sprachsteuerung, könnte die Interaktion mit digitalen Inhalten noch intuitiver und effizienter gestalten.

Bibliographie Hu, Y., Li, Y., & Barbic, J. (2024). Perceptual Evaluation of Liquid Simulation Methods. *IEEE Transactions on Visualization and Computer Graphics*. Goldluecke, B., & Magnor, M. (2009). AEye - Synthetic Data Generation for Eye Tracking. *Proceedings of the ETRA 2009 Symposium*. Takahashi, S., Uchita, A., Watanabe, K., & Arikawa, M. (2021). Gaze-driven placement of items for proactive visual exploration. *Journal of Vision*, *25*(3), 613–633. Stapleton, J. (2017). Gaze-based interaction in various environments. *Journal of Behavioral Sciences and Research*. de la Torre, J., & Brookins, M. (2012). Learning analytics in moodle: Tracking students' interaction with formative assessments. *Proceedings of the 9th International Conference on Computer Systems and Technologies*. Wagner, M., Kasneci, E., & Weiskopf, D. (2008). Behavior-based user interface design for 3D virtual environments. *Proceedings of the 2008 International Conference on Advances in Computer Entertainment Technology*. Hild, J., Holzbach, G., Maier, S., van de Camp, F., Voit, M., & Peinsipp-Byma, E. (2022). Gaze-Enhanced User Interface for Real-Time Video Surveillance. In *HCI International 2022 - Late Breaking Posters*. Stapleton, J., & Levine, J. (2019). Gaze-based interaction on multiple displays in an automotive environment. *Proceedings of the ACM Symposium on User Interface Software and Technology*. Staples, J. (2018). Gaze-based interaction on multiple displays in an automotive environment. *Journal of Behavioral Sciences and Research*, *4*(1). גמ, ה. (2021). הפרופיל הוא אגרסיה.
Was bedeutet das?

Wie können wir Ihnen heute helfen?

Das Expertenteam von Mindverse freut sich darauf, Ihnen zu helfen.