Fortschritte in der visuellen Objektverfolgung durch Einsatz von Ereigniskameras und State Space Models

Kategorien:

No items found.

Freigegeben:

August 27, 2024

Neueste Entwicklungen bei der visuellen Objektverfolgung mit Ereignisströmen

Einführung

In den letzten Jahren hat die visuelle Objektverfolgung mit Ereigniskameras zunehmend Aufmerksamkeit auf sich gezogen. Diese Kameras bieten einzigartige Vorteile wie niedrigen Energieverbrauch, hohe Dynamikbereiche und dichte zeitliche Auflösung. Trotz dieser Vorteile stoßen aktuelle Algorithmen zur Ereignis-basierten Verfolgung aufgrund der Nutzung von Vision-Transformern und statischen Vorlagen allmählich an ihre Leistungsgrenzen. In diesem Artikel stellen wir einen neuen Rahmen zur visuellen Objektverfolgung vor, der auf dem State Space Model (SSM) basiert und die Leistungsfähigkeit in mehreren großen Datensätzen verbessert.

Der Mamba-basierte Verfolgungsrahmen

Der vorgeschlagene Mamba-basierte Verfolgungsrahmen nutzt das State Space Model als Backbone-Netzwerk. Dabei werden Suchregionen und Zielvorlagen in das Vision-Mamba-Netzwerk eingespeist, um gleichzeitig Merkmale zu extrahieren und zu interagieren. Die Ausgabe-Tokens der Suchregionen werden dann in den Tracking-Head eingespeist, um die Zielverortung durchzuführen.

Ein wichtiger Aspekt dieses Rahmens ist die Einführung einer dynamischen Vorlagenaktualisierungsstrategie. Durch die Berücksichtigung der Vielfalt der Proben in der Zielvorlagenbibliothek und entsprechende Anpassungen im Vorlagen-Speichermodul kann eine effektivere dynamische Vorlage integriert werden. Die Kombination aus dynamischen und statischen Vorlagen ermöglicht es dem Mamba-basierten Verfolgungsalgorithmus, ein gutes Gleichgewicht zwischen Genauigkeit und Rechenaufwand zu erreichen.

Leistung und Effizienz

Die Mamba-basierte Verfolgung zeigt eine gute Leistung und Effizienz auf mehreren großen Datensätzen, einschließlich EventVOT, VisEvent und FE240hz. In umfangreichen Experimenten wurde gezeigt, dass der Mamba-basierte Verfolger die GPU-Speicherkosten, FLOPs und Parameter im Vergleich zu ViT-S-basierten Trackern erheblich reduziert. Zum Beispiel reduziert der Mamba-basierte Verfolger die GPU-Speicherkosten um etwa 9,5%, die FLOPs um 94,5% und die Parameter um 88,3%, während er gleichzeitig eine bessere Verfolgungsleistung bietet.

Verwandte Arbeiten

Die dual-modale Verfolgung, die RGB- und Ereignisdaten integriert, beruht hauptsächlich auf der Transformer-Architektur. Der vorgeschlagene Mamba-FETrack nutzt jedoch ein optimiertes Mamba-Backbone, um die Effizienz des Modells zu steigern. In dieser Sektion werden die aktuellen Mainstream-Algorithmen zur Frame-Ereignis-Verfolgung sowie State Space Models (SSM) untersucht.

Frame-Ereignis-Verfolgung

Die Ereigniskamera bietet Vorteile wie hohe Dynamikbereiche und minimale Verzögerung, während die RGB-Kamera detaillierte Texturinformationen der Szene erfasst. Einige der aktuellen Arbeiten im Bereich der RGB-Ereignis-Verfolgung umfassen:

- CMT: Ein von Wang et al. vorgeschlagenes Modul zur Fusion von RGB- und Ereignisdaten. - Ein einheitliches Adapter-basiertes Transformator-Netzwerk von Tang et al. zur simultanen Merkmalsextraktion, Fusion und Verfolgung. - Ein hybrides SNN-Transformator-Framework von Zhang et al. für energieeffiziente visuelle Verfolgung.

Trotz der guten Ergebnisse dieser Arbeiten auf bestehenden Benchmark-Datensätzen sind diese Algorithmen durch hohe Rechenkomplexität und Speicheranforderungen begrenzt.

State Space Model (SSM)

Das State Space Model (SSM) hat in der KI-Community, insbesondere in der natürlichen Sprachverarbeitung und der Computer Vision, zunehmend an Bedeutung gewonnen. Es handelt sich um ein aufmerksamkeitfreies Modell mit linearer Komplexität. Aktuelle SSM-basierte Vision-Modelle zeigen, dass sie ähnliche oder sogar höhere Leistungen bei groß angelegten Klassifizierungsaufgaben erzielen können, während gleichzeitig der Speicherbedarf und die FLOPs im Vergleich zu Transformator-basierten Netzwerken deutlich reduziert werden.

Vergleich der Leistungsmetriken

In umfangreichen Experimenten auf den RGB-Ereignis-Verfolgungsdatensätzen FELT und FE108 wurde die Effizienz und Effektivität des vorgeschlagenen Trackers voll validiert. Der Mamba-basierte Tracker erzielte 43,5/55,6 auf der SR/PR-Metrik, während der ViT-S-basierte Tracker (OSTrack) 40,0/50,9 erreichte. Diese Ergebnisse zeigen, dass unser Mamba-basierter Verfolger eine hervorragende Leistung bei gleichzeitig geringem Ressourcenverbrauch erbringt.

Schlussfolgerung

Zusammenfassend lässt sich sagen, dass der Mamba-basierte Verfolgungsrahmen eine vielversprechende Lösung für die Herausforderungen der visuellen Verfolgung mit Ereigniskameras darstellt. Durch die Kombination von dynamischen und statischen Vorlagen und die effiziente Nutzung des State Space Models wird eine hohe Genauigkeit bei gleichzeitig niedrigen Rechenkosten erreicht. Die Einführung des Mamba-Frameworks könnte neue Einblicke in das Feld der Verfolgung bringen und die Anwendung der Mamba-Architektur in der Verfolgung erheblich fördern.

Bibliographie

https://www.prophesee.ai/wp-content/uploads/2024/07/Mamba-FETrack-Frame-Event-Tracking-via-State-Space-Model.pdf https://arxiv.org/html/2404.18174v1 https://arxiv.org/abs/2309.14611 https://openaccess.thecvf.com/content/CVPR2024/papers/Wang_Event_Stream-based_Visual_Object_Tracking_A_High-Resolution_Benchmark_Dataset_and_CVPR_2024_paper.pdf https://cvpr2023.thecvf.com/virtual/2024/poster/29490 https://github.com/Event-AHU/EventVOT_Benchmark https://www.semanticscholar.org/paper/722028431d78dfbeb94020d4983250430359f39d https://paperswithcode.com/task/visual-object-tracking

Was bedeutet das?