Die präzise visuelle Wahrnehmung und das Verstehen von Bildern sind grundlegende Aufgaben der Künstlichen Intelligenz. Bildpyramiden, die Mehrskalen-Features extrahieren, haben sich als essentiell für hochleistungsfähige Modelle erwiesen. Herkömmliche Bildpyramiden verarbeiten jedoch verschiedene Auflösungen eines Bildes mit dem gleichen großen Modell, was zu erheblichen Rechenkosten führt. Ein neuer Ansatz, die Parameter-Inversen Bildpyramiden-Netzwerke (PIIP), verspricht hier Abhilfe.
PIIP basiert auf einem innovativen Konzept: der Parameter-Inversion. Anstatt für alle Bildauflösungen das gleiche Modell zu verwenden, setzt PIIP vortrainierte Modelle (z.B. Vision Transformer (ViTs) oder Convolutional Neural Networks (CNNs)) unterschiedlicher Größe ein. Dabei werden Bilder mit höherer Auflösung von kleineren Netzwerken verarbeitet, während größere Netzwerke für niedrigere Auflösungen zuständig sind. Diese Strategie balanciert Rechenaufwand und Leistung optimal aus. Kleinere Modelle extrahieren effizient Low-Level-Features aus hochauflösenden Bildern, während größere Modelle semantisch reichhaltige Kontextinformationen aus Bildern geringerer Auflösung gewinnen.
Um Informationen aus verschiedenen räumlichen Skalen zu integrieren, verwendet PIIP einen neuartigen Mechanismus zur Interaktion zwischen den Netzwerkzweigen (Branches). Dieser ermöglicht den Austausch und die Ergänzung von Features zwischen den verschiedenen Modellgrößen. Nach der individuellen Feature-Extraktion werden die Ergebnisse der einzelnen Zweige zusammengeführt und für die jeweilige Aufgabe, wie Objekterkennung oder Segmentierung, genutzt.
Die Vielseitigkeit von PIIP zeigt sich in der Anwendung auf verschiedene Wahrnehmungsmodelle und auch in der Integration mit multimodalen Large Language Models (MLLMs) wie LLaVA. Experimentelle Ergebnisse belegen die Überlegenheit von PIIP gegenüber Single-Branch- und bestehenden Multi-Resolution-Ansätzen bei gleichzeitig geringerem Rechenaufwand.
Angewendet auf große Vision Foundation Models wie InternViT-6B, erzielt PIIP Leistungssteigerungen von 1-2% bei Objektdetektion und -segmentierung, während der Rechenaufwand um 40-60% reduziert wird. Konkret erreicht PIIP 60.0 Box AP auf MS COCO und 59.7 mIoU auf ADE20K. Im Bereich des multimodalen Verstehens erreicht PIIP-LLaVA eine Genauigkeit von 73.0% auf TextVQA und 74.5% auf MMBench mit nur 2.8 Millionen Trainingsdaten.
PIIP eröffnet neue Möglichkeiten für effizientes und leistungsstarkes visuelles Computing. Die Erweiterung auf CNN-basierte und hybride ViT-CNN-Strukturen sowie die Integration in MLLMs wie PIIP-LLaVA unterstreichen das Potenzial dieses Ansatzes. Zukünftige Forschung könnte sich auf die Optimierung der Interaktionsmechanismen und die Anpassung an weitere Aufgaben konzentrieren. Die Veröffentlichung des Codes auf GitHub ermöglicht es der Community, PIIP zu erforschen und weiterzuentwickeln.
Wang, Z., Zhu, X., Yang, X., Luo, G., Li, H., Tian, C., Dou, W., Ge, J., Lu, L., Qiao, Y., & Dai, J. (2025). Parameter-Inverted Image Pyramid Networks for Visual Perception and Multimodal Understanding. arXiv preprint arXiv:2501.07783. Zhu, X., Yang, X., Wang, Z., Li, H., Dou, W., Ge, J., Lu, L., Qiao, Y., & Dai, J. (2024). Parameter-Inverted Image Pyramid Networks. arXiv preprint arXiv:2406.04330. Zhu, X., Yang, X., Wang, Z., Li, H., Dou, W., Ge, J., Lu, L., Qiao, Y., & Dai, J. (2024). Parameter-Inverted Image Pyramid Networks. NeurIPS 2024. OpenGVLab. (n.d.). PIIP. GitHub. Retrieved from https://github.com/OpenGVLab/PIIP Wang, Z., Zhu, X., Yang, X. et al. Parameter-Inverted Image Pyramid Networks for Visual Perception and Multimodal Understanding. ResearchGate (2025). https://www.researchgate.net/publication/381226797_Parameter-Inverted_Image_Pyramid_Networks Zhu, X., Yang, X., Wang, Z. et al. Parameter-Inverted Image Pyramid Networks. OpenReview (2024). https://openreview.net/pdf?id=NKzLqRgG45 The IEEE Conference on Computer Vision and Pattern Recognition (CVPR). (2024). https://openaccess.thecvf.com/CVPR2024?day=all Most Influential CVPR Papers (2024-09). Paper Digest (2024). https://www.paperdigest.org/2024/09/most-influential-cvpr-papers-2024-09/ NeurIPS 2024 Spotlight Posters. NeurIPS (2024). https://neurips.cc/virtual/2024/events/spotlight-posters-2024 Li, Y., Wu, Y., Hu, H. et al. InvPT: Inverted Pyramid Multi-Task Transformer for Visual Scene Understanding. ResearchGate (2022). https://www.researchgate.net/publication/371414017_InvPT_Inverted_Pyramid_Multi-Task_Transformer_for_Visual_Scene_Understanding