Neue Entwicklungen bei NeuFlow v2 zur effizienten Berechnung des optischen Flusses auf Edge-Geräten

Kategorien:
No items found.
Freigegeben:
August 20, 2024
NeuFlow v2: Effiziente Schätzung des Optischen Flusses auf Edge-Geräten

NeuFlow v2: Effiziente Schätzung des Optischen Flusses auf Edge-Geräten

Einführung

Die Schätzung des optischen Flusses in Echtzeit mit hoher Genauigkeit ist eine Schlüsselkomponente in vielen Anwendungen, darunter Robotik, Objektverfolgung und Aktivitätserkennung in der Computer Vision. Während neuere, auf maschinellem Lernen basierende Methoden zur Schätzung des optischen Flusses eine hohe Genauigkeit erreicht haben, kommen sie oft mit erheblichen Berechnungskosten einher. In diesem Artikel stellen wir NeuFlow v2 vor, eine hocheffiziente Methode zur Schätzung des optischen Flusses, die hohe Genauigkeit mit reduzierten Rechenanforderungen ausbalanciert.

Hintergrund und Herausforderungen

Optischer Fluss bezieht sich auf die Verteilung der scheinbaren Geschwindigkeiten von Helligkeitsmustern in einem Bild, die durch die relative Bewegung von Objekten und dem Betrachter entstehen. Diese Technik ist in zahlreichen Anwendungen von entscheidender Bedeutung, darunter Lokalisierung und Kartierung in der Robotik, Objektverfolgung und Szenenverständnis. Die Echtzeitschätzung des optischen Flusses ist besonders wichtig in Szenarien, die eine schnelle und genaue Analyse dynamischer Szenen erfordern, wie etwa in autonomen Fahrsystemen und der erweiterten Realität.

NeuFlow v2: Ein Überblick

Aufbauend auf NeuFlow v1, führt die neue Version von NeuFlow leichtere Backbone-Komponenten und ein schnelles Verfeinerungsmodul ein. Diese Module tragen dazu bei, die Rechenanforderungen gering zu halten, während sie eine Genauigkeit nahe dem Stand der Technik bieten. Unser Modell erreicht im Vergleich zu anderen Methoden eine 10x-70x Geschwindigkeitssteigerung bei gleichbleibender Leistung sowohl auf synthetischen als auch auf realen Daten.

Architektur und Methodik

Die Architektur von NeuFlow v2 folgt einem global-zu-lokal Schema. Zunächst werden die Merkmale der Eingabebilder auf verschiedenen räumlichen Auflösungen extrahiert. Globale Zuordnung wird verwendet, um einen ersten optischen Fluss auf der 1/16 Auflösung zu schätzen, der dann auf der 1/8 Auflösung mit leichten CNN-Schichten verfeinert wird, um eine bessere Genauigkeit zu erzielen. Diese Struktur ermöglicht es dem Modell, große Verschiebungen zu erfassen und gleichzeitig die Rechenkosten zu minimieren.

Experimentelle Ergebnisse

Die Effizienz von NeuFlow v2 wird auf verschiedenen Rechenplattformen wie Jetson Orin Nano und RTX 2080 demonstriert. Unser Ansatz erreicht eine bemerkenswerte 10x-80x Geschwindigkeitssteigerung im Vergleich zu mehreren Methoden des Standes der Technik, während die Genauigkeit vergleichbar bleibt. NeuFlow v2 läuft mit etwa 30 FPS auf edge Computing Plattformen, was einen bedeutenden Durchbruch bei der Implementierung komplexer Computer-Vision-Aufgaben wie SLAM (Simultaneous Localization and Mapping) auf kleinen Robotern wie Drohnen darstellt.

Vergleich mit dem Stand der Technik

NeuFlow v2 wurde auf Standard-Benchmarks getestet und zeigt vergleichbare Genauigkeit wie die neuesten optischen Flussmethoden, einschließlich RAFT, GMFlow und GMA, bei einer 10-fachen höheren Geschwindigkeit. FlowFormer erreicht die höchste Genauigkeit, ist jedoch 70-mal langsamer als unsere Methode.

Fazit und Ausblick

NeuFlow v2 stellt eine bedeutende Verbesserung in der Schätzung des optischen Flusses dar, indem es hohe Genauigkeit mit niedrigen Rechenanforderungen kombiniert. Durch die Veröffentlichung des Codes und der Modellgewichte hoffen wir, die nächste Generation von Anwendungen in der Robotik und der visuellen Inertial-Odometrie zu fördern. Die Anpassungsfähigkeit und Effizienz von NeuFlow v2 machen es zu einer vielversprechenden Lösung für Echtzeit-Computer-Vision-Aufgaben auf edge Geräten.

Bibliographie

- https://huggingface.co/papers/2408.10161 - https://arxiv.org/abs/2403.10425 - https://github.com/neufieldrobotics/NeuFlow - https://arxiv.org/html/2403.10425v1 - https://paperswithcode.com/task/optical-flow-estimation/latest?page=3 - https://huggingface.co/papers - https://www.linkedin.com/posts/papers2date_neuflow-opticalflow-edgecomputing-activity-7175522758116704256-E9JN - https://arxiv-sanity-lite.com/?rank=pid&pid=2403.10425 - https://www.researchgate.net/publication/216792688_NeuFlow_A_Runtime-Reconfigurable_Dataflow_Processor_for_Vision
Was bedeutet das?