Die Welt der Künstlichen Intelligenz (KI) ist in ständiger Bewegung. Ein besonders dynamisches Feld ist die Entwicklung multimodaler großer Sprachmodelle (MLLMs), die Texte, Bilder und andere Datentypen verarbeiten und interpretieren können. Ein wichtiger Aspekt für die Weiterentwicklung dieser Modelle ist die Fähigkeit, komplexe Schlussfolgerungen zu ziehen – ähnlich wie Menschen. Ein neues Forschungsprojekt namens Insight-V stellt einen vielversprechenden Ansatz vor, um genau diese Fähigkeit zu verbessern.
Herkömmliche große Sprachmodelle (LLMs) haben durch Methoden wie "Chain-of-Thought" prompting bereits Fortschritte im Bereich des Schlussfolgerns erzielt. Diese Fortschritte basieren jedoch oft auf großen Mengen an qualitativ hochwertigen Trainingsdaten und etablierten Trainingsprozessen. Im multimodalen Bereich, wo neben Text auch visuelle Informationen verarbeitet werden müssen, gestaltet sich die Lage deutlich komplexer. Die Erstellung von qualitativ hochwertigen Datensätzen für visuelles Schlussfolgern ist aufwendig und erfordert in der Regel erheblichen manuellen Aufwand. Zudem sind die bisherigen Trainingsmethoden für MLLMs oft nicht effektiv genug, um das Potenzial des visuellen Schlussfolgerns voll auszuschöpfen.
Insight-V adressiert diese Herausforderungen mit einem innovativen zweistufigen Ansatz. Erstens wird eine Pipeline zur Datengenerierung eingeführt, die in zwei Schritten funktioniert: Eine progressive Strategie erzeugt strukturierte, mehrstufige Schlussfolgerungsdaten mit verschiedenen Denkpfade. Anschließend bewertet ein mehrstufiges Bewertungssystem diese Pfade auf unterschiedlichen Ebenen. Durch die automatische Generierung, Bewertung und Rangfolge der Daten kann dieser Prozess ohne menschlichen Aufwand skaliert werden.
Zweitens setzt Insight-V auf ein Multi-Agenten-System. Dieses System teilt den Problemlösungsprozess in zwei separate Schritte auf: Schlussfolgern und Zusammenfassen. Ein Agent, der "Reasoning Agent", generiert einen detaillierten Schlussfolgerungsprozess für die eingegebene Anfrage. Ein zweiter Agent, der "Summary Agent", identifiziert die wichtigsten Informationen innerhalb dieses Prozesses und liefert eine prägnante Antwort. Ein iterativer DPO-Algorithmus (Direct Preference Optimization) verfeinert die Qualität des Schlussfolgerungsprozesses und sorgt für Stabilität und Genauigkeit.
Erste Tests mit Insight-V zeigen vielversprechende Ergebnisse. Die Integration in das etablierte LLaVA-NeXT Modell führte zu einer durchschnittlichen Leistungssteigerung von 7,0% in sieben anspruchsvollen Benchmarks für visuelles Schlussfolgern. Auch bei der Anwendung auf ein eigens entwickeltes, leistungsstarkes Basis-MLLM konnte eine Verbesserung von 2,9% erzielt werden. Diese Ergebnisse unterstreichen die Effektivität und die Generalisierbarkeit des Ansatzes.
Insight-V bietet somit eine skalierbare Pipeline zur Generierung von hochwertigen Daten für mehrstufiges Schlussfolgern, ein Multi-Agenten-System, das visuelle Schlussfolgerungsaufgaben in einzelne Schritte zerlegt, und einen zweistufigen Trainingsprozess zur Verbesserung der visuellen Schlussfolgerungsfähigkeiten. Diese Innovationen adressieren zentrale Herausforderungen im Bereich des visuellen Schlussfolgerns und bilden eine solide Grundlage für zukünftige Forschung im Bereich der MLLMs. Für Unternehmen wie Mindverse, die sich auf die Entwicklung von KI-Lösungen spezialisiert haben, eröffnen sich dadurch neue Möglichkeiten, die Leistungsfähigkeit von Chatbots, Voicebots, KI-Suchmaschinen und Wissenssystemen weiter zu verbessern. Die Kombination von visuellen und textuellen Informationen in komplexen Schlussfolgerungsprozessen könnte die Interaktion mit KI-Systemen grundlegend verändern und neue Anwendungsfelder erschließen.
Bibliographie Dong, Y., Liu, Z., Sun, H.-L., Yang, J., Hu, W., Rao, Y., & Liu, Z. (2024). Insight-V: Exploring Long-Chain Visual Reasoning with Multimodal Large Language Models. arXiv preprint arXiv:2411.14432. Dong, Y., Liu, Z., Sun, H.-L., Yang, J., Hu, W., Rao, Y., & Liu, Z. (2024). Insight-V: Exploring Long-Chain Visual Reasoning with Multimodal Large Language Models. arXiv preprint arXiv:2411.14432v1. Liu, Z. [@liuziwei7]. (n.d.). _X_. Abgerufen am 28. November 2024 von https://x.com/liuziwei7?lang=de Forschungszentrum Jülich. (2024, 28. November). Researchers reveal dramatic LLMs reasoning breakdown. https://www.fz-juelich.de/en/ias/jsc/news/news-items/news-flashes/2024/lresearchers-reveal-dramatic-llms-reasoning-breakdown liuziwei7. (n.d.). GitHub. Abgerufen am 28. November 2024 von https://github.com/liuziwei7