Das autonome Fahren ist ein intensiv erforschtes Gebiet, in dem stetig nach effizienteren und sichereren Lösungen gesucht wird. Ein vielversprechender Ansatz ist das sogenannte End-to-End-Lernen, bei dem ein Modell direkt aus Sensordaten lernt, Fahrmanöver zu generieren. Dabei haben sich Diffusionsmodelle als leistungsstarke generative Technik erwiesen, die insbesondere die Modellierung multimodaler Aktionsverteilungen ermöglicht. Allerdings stellt die Anwendung von Diffusionsmodellen im Kontext des autonomen Fahrens aufgrund der hohen Anforderungen an Echtzeitfähigkeit und der komplexen Dynamik des Straßenverkehrs eine Herausforderung dar.
Herkömmliche End-to-End-Modelle für autonomes Fahren basieren oft auf Regressionen, die nur eine einzige Handlungsoption vorhersagen. Dies berücksichtigt jedoch nicht die Unsicherheit und Multimodalität von Fahrverhalten in realen Verkehrssituationen. Auch die Anwendung von herkömmlichen Diffusionsmodellen im Bereich Robotik stößt auf Schwierigkeiten. Die hohe Anzahl an Denoising-Schritten, die für die Generierung von Aktionen benötigt werden, führt zu einem erheblichen Rechenaufwand und verhindert somit den Einsatz in Echtzeit. Zudem besteht die Gefahr des sogenannten "Mode Collapse", bei dem verschiedene Rauscheingaben zu ähnlichen Trajektorien führen und somit die Diversität der generierten Fahraktionen einschränken.
Um diese Herausforderungen zu bewältigen, wurde DiffusionDrive entwickelt, ein neuartiges trunkiertes Diffusionsmodell für autonomes Fahren. DiffusionDrive integriert vorab definierte multimodale Ankerpunkte und verkürzt den Diffusionszeitplan. Dadurch lernt das Modell, den Denoising-Prozess von einer verankerten Gaußschen Verteilung zu einer multimodalen Verteilung von Fahraktionen durchzuführen. Der verkürzte Diffusionszeitplan reduziert die Anzahl der benötigten Denoising-Schritte erheblich, was zu einer deutlichen Beschleunigung der Inferenz führt. Zusätzlich verwendet DiffusionDrive einen effizienten, kaskadenartigen Diffusionsdecoder, der die Interaktion mit kontextuellen Szeneninformationen verbessert und so die Trajektorienrekonstruktion optimiert.
DiffusionDrive wurde auf dem planungsorientierten NAVSIM-Datensatz evaluiert und erzielte dabei mit einem ResNet-34-Backbone einen PDMS-Wert von 88,1. Dies stellt einen neuen Rekord dar und unterstreicht die Leistungsfähigkeit des Modells. Gleichzeitig erreicht DiffusionDrive auf einer NVIDIA 4090 eine Echtzeitgeschwindigkeit von 45 FPS. Weitere Tests auf dem nuScenes-Datensatz bestätigen die hohe Planungsqualität und die reduzierte Kollisionsrate im Vergleich zu bisherigen Ansätzen. DiffusionDrive kann verschiedene plausible Fahrmanöver generieren und zeigt robustes Verhalten in anspruchsvollen Szenarien.
Die Entwicklung von DiffusionDrive stellt einen wichtigen Schritt in Richtung eines sicheren und effizienten autonomen Fahrens dar. Die Kombination aus trunkierten Diffusionsmodellen und effizienten Decoderarchitekturen ermöglicht die Generierung multimodaler Fahraktionen in Echtzeit. Zukünftige Forschung könnte sich auf die weitere Verbesserung der Robustheit und Generalisierbarkeit des Modells konzentrieren, um den Einsatz in realen Verkehrssituationen weiter zu optimieren. Die Integration von DiffusionDrive in die Mindverse-Plattform bietet zudem das Potenzial für die Entwicklung maßgeschneiderter KI-Lösungen im Bereich des autonomen Fahrens, wie beispielsweise Chatbots und Wissensdatenbanken.
Bibliographie: https://arxiv.org/abs/2411.15139 https://arxiv.org/html/2411.15139v1 https://huggingface.co/papers/2411.15139 https://github.com/hustvl/DiffusionDrive https://chatpaper.com/chatpaper/paper/84566 https://huggingface.co/papers https://synthical.com/article/DiffusionDrive%3A-Truncated-Diffusion-Model-for-End-to-End-Autonomous-Driving-33fa529c-c0d2-4e5b-b89f-f9a58b9cbc2e? https://arxiv-sanity-lite.com/inspect?pid=2411.15139 https://twitter.com/salimazak/status/1861775772182049097