Die Interaktion mit großen Sprachmodellen (LLMs) hat sich in den letzten Jahren rasant entwickelt. Besonders im Bereich der Videoanalyse eröffnen sich neue Möglichkeiten. Während herkömmliche Video-LLMs das gesamte Videomaterial analysieren, bevor sie Fragen beantworten, zielt die Forschung zunehmend auf Echtzeit-Interaktion ab. Dies erfordert jedoch neue Ansätze, da die Verarbeitung des Videostreams, die Entscheidungsfindung über Interaktionsmomente und die eigentliche Reaktion des Modells gleichzeitig erfolgen müssen.
Drei Kernfähigkeiten sind für die Echtzeit-Interaktion mit Video-LLMs entscheidend:
Wahrnehmung: Kontinuierliche Überwachung des Videostreams und Erfassung von Interaktionsmöglichkeiten.
Entscheidung: Proaktive Einleitung von Interaktionen in geeigneten Situationen.
Reaktion: Fortlaufende Interaktion mit dem Benutzer.
Diese Fähigkeiten stehen jedoch in einem Spannungsverhältnis zueinander. Entscheidungsfindung und Reaktion benötigen eine andere Wahrnehmungstiefe und -granularität als die kontinuierliche Videoverarbeitung. Zudem blockiert die autoregressive Dekodierung, die zur Generierung von Textantworten verwendet wird, die Echtzeit-Wahrnehmung und -Entscheidung während der Reaktionsphase.
Um diese Herausforderungen zu bewältigen, wurde Dispider entwickelt, ein System, das Wahrnehmung, Entscheidung und Reaktion entkoppelt und asynchron ablaufen lässt. Dispider verfügt über ein leichtgewichtiges Modul zur proaktiven Verarbeitung des Videostreams. Dieses Modul identifiziert optimale Momente für Interaktionen. Sobald eine Interaktion ausgelöst wird, liefert ein asynchrones Interaktionsmodul detaillierte Antworten, während das Verarbeitungsmodul weiterhin den Videostream überwacht.
Dispider basiert auf drei Hauptmodulen:
Szenenbasiertes Wahrnehmungsmodul: Segmentiert den Videostream dynamisch in Clips basierend auf Szenenwechseln. Dies stellt sicher, dass jedes Segment inhaltlich relevante Veränderungen im Video erfasst.
Echtzeit-Entscheidungsmodul: Integriert szenenbasierte Merkmale, den bisherigen Interaktionsverlauf und vorherige Entscheidungs-Tokens in eine Sequenz. Diese Sequenz wird analysiert, um zu bestimmen, ob eine Reaktion generiert werden soll oder ob auf weitere Videoinhalte gewartet werden muss.
Asynchrones Interaktionsmodul: Generiert kontextsensitive Antworten, ohne die laufende Videoverarbeitung zu unterbrechen.
Dispider wird auf einem speziellen Streaming-QA-Datensatz trainiert, der Echtzeit-Interaktionsszenarien simuliert. Dadurch lernt das Modell, sowohl auf Fragen zu antworten als auch Situationen zu erkennen, in denen keine Reaktion erforderlich ist. Die Evaluation von Dispider zeigt, dass das System in Echtzeit-Video-Stream-Interaktionen deutlich besser abschneidet als bisherige Online-Modelle, insbesondere in Bezug auf zeitliche Zuordnung, proaktive Antwortgenerierung und mehrstufiges Schlussfolgern. Auch in herkömmlichen Video-QA-Aufgaben erzielt Dispider gute Ergebnisse.
Dispider präsentiert einen vielversprechenden Ansatz für die Echtzeit-Interaktion mit Video-LLMs. Durch die Entkopplung von Wahrnehmung, Entscheidung und Reaktion ermöglicht das System eine flüssige und effiziente Verarbeitung von Videostreams und die Generierung von zeitnahen und kontextbezogenen Antworten. Die Architektur von Dispider eröffnet neue Möglichkeiten für Anwendungen in Bereichen wie Mensch-Computer-Interaktion, Videoüberwachung und interaktive Lernumgebungen. Zukünftige Forschung könnte sich auf die Erweiterung des Systems auf komplexere Interaktionsszenarien und die Integration weiterer Modalitäten konzentrieren.
Bibliographie: https://arxiv.org/abs/2501.03218 https://arxiv.org/html/2501.03218v1 https://paperreading.club/page?id=276938 https://huggingface.co/papers https://arxiv-sanity-lite.com/ https://www.chatpaper.com/chatpaper/zh-CN?id=4&date=1736179200&page=1 https://github.com/52CV/CVPR-2024-Papers https://www.paperdigest.org/2024/06/icml-2024-highlights/ https://deeplearn.org/