Video Large Language Models (VideoLLMs) eröffnen spannende Möglichkeiten für die Analyse und Verarbeitung von Videoinhalten. Sie ermöglichen komplexes Schlussfolgern und die Bearbeitung längerer Videosequenzen. Die Verarbeitung der visuellen Informationen, die aus den Videoframes extrahiert werden, stellt jedoch eine erhebliche Herausforderung dar. Der sogenannte Key-Value (KV) Cache, der für die Speicherung und den schnellen Zugriff auf diese Informationen essentiell ist, kann schnell zu einem Engpass in Bezug auf Speicherbedarf und Inferenzgeschwindigkeit werden.
Die Quantisierung des KV-Caches hat sich als wirksame Methode zur Reduzierung des Speicherbedarfs erwiesen. Bisherige Forschung hat gezeigt, dass eine 2-Bit-Quantisierung des KV-Caches bei VideoLLMs kaum zu Leistungseinbußen führt. Die Grenzen der Quantisierung in noch geringeren Bitbereichen wurden jedoch bisher wenig erforscht.
Eine neue Forschungsarbeit stellt nun VidKV vor, eine Plug-and-Play-Methode zur Quantisierung des KV-Caches, die eine Komprimierung auf unter 2 Bit ermöglicht. VidKV verfolgt einen differenzierten Ansatz für die Quantisierung von Keys und Values.
Für die Keys verwendet VidKV eine gemischte Präzisionsstrategie in der Kanaldimension. Anomale Kanäle werden mit 2 Bit quantisiert, während normale Kanäle eine 1-Bit-Quantisierung in Kombination mit einer Fast Fourier Transformation (FFT) erfahren.
Die Values werden mit einer 1,58-Bit-Quantisierung komprimiert. Dabei werden semantisch wichtige visuelle Tokens selektiv gefiltert und gezielt erhalten, um einen optimalen Kompromiss zwischen Präzision und Modellleistung zu erreichen. Ein wichtiger Befund der Forschung ist, dass der Value-Cache von VideoLLMs kanalweise und nicht tokenweise quantisiert werden sollte, wie es bei bisherigen Quantisierungsmethoden für LLMs der Fall war.
Um die Effektivität von VidKV zu demonstrieren, wurden umfangreiche Tests mit LLaVA-OV-7B und Qwen2.5-VL-7B auf sechs verschiedenen Benchmarks durchgeführt. Die Ergebnisse zeigen, dass VidKV den KV-Cache effektiv auf 1,5-Bit und 1,58-Bit Präzision komprimieren kann, ohne die Leistung im Vergleich zu FP16-Pendants signifikant zu beeinträchtigen.
Diese Forschungsergebnisse eröffnen neue Möglichkeiten für die effiziente Verarbeitung von Videoinhalten durch große Sprachmodelle. Die Reduzierung des Speicherbedarfs und die damit einhergehende Beschleunigung der Inferenzgeschwindigkeit ebnen den Weg für den Einsatz von VideoLLMs in ressourcenbeschränkten Umgebungen und ermöglichen neue Anwendungen in Bereichen wie Videoanalyse, Inhaltserstellung und Mensch-Computer-Interaktion.
Keda Tao, Haoxuan You, Yang Sui, Can Qin, Huan Wang. Plug-and-Play 1.x-Bit KV Cache Quantization for Video Large Language Models. arXiv preprint arXiv:2503.16257 (2025). https://x.com/gm8xx8/status/1902950048083628487 https://huggingface.co/papers?q=KV-cache http://paperreading.club/page?id=293785 https://x.com/gm8xx8/status/1902950050348622191 https://arxiv.org/html/2502.14882v1 https://huggingface.co/blog/kv-cache-quantization https://proceedings.neurips.cc/paper_files/paper/2024/file/028fcbcf85435d39a40c4d61b42c99a4-Paper-Conference.pdf https://nips.cc/virtual/2024/poster/93558 https://github.com/DefTruth/Awesome-LLM-Inference