Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen
Die Welt der Künstlichen Intelligenz (KI) ist in ständiger Bewegung. Ein besonders dynamisches Feld ist die Entwicklung multimodaler großer Sprachmodelle (MLLMs), die Texte, Bilder und andere Datentypen verarbeiten und interpretieren können. Ein wichtiger Aspekt für die Weiterentwicklung dieser Modelle ist die Fähigkeit, komplexe Schlussfolgerungen zu ziehen – ähnlich wie Menschen. Ein neues Forschungsprojekt namens Insight-V stellt einen vielversprechenden Ansatz vor, um genau diese Fähigkeit zu verbessern.
Herkömmliche große Sprachmodelle (LLMs) haben durch Methoden wie "Chain-of-Thought" prompting bereits Fortschritte im Bereich des Schlussfolgerns erzielt. Diese Fortschritte basieren jedoch oft auf großen Mengen an qualitativ hochwertigen Trainingsdaten und etablierten Trainingsprozessen. Im multimodalen Bereich, wo neben Text auch visuelle Informationen verarbeitet werden müssen, gestaltet sich die Lage deutlich komplexer. Die Erstellung von qualitativ hochwertigen Datensätzen für visuelles Schlussfolgern ist aufwendig und erfordert in der Regel erheblichen manuellen Aufwand. Zudem sind die bisherigen Trainingsmethoden für MLLMs oft nicht effektiv genug, um das Potenzial des visuellen Schlussfolgerns voll auszuschöpfen.
Insight-V adressiert diese Herausforderungen mit einem innovativen zweistufigen Ansatz. Erstens wird eine Pipeline zur Datengenerierung eingeführt, die in zwei Schritten funktioniert: Eine progressive Strategie erzeugt strukturierte, mehrstufige Schlussfolgerungsdaten mit verschiedenen Denkpfade. Anschließend bewertet ein mehrstufiges Bewertungssystem diese Pfade auf unterschiedlichen Ebenen. Durch die automatische Generierung, Bewertung und Rangfolge der Daten kann dieser Prozess ohne menschlichen Aufwand skaliert werden.
Zweitens setzt Insight-V auf ein Multi-Agenten-System. Dieses System teilt den Problemlösungsprozess in zwei separate Schritte auf: Schlussfolgern und Zusammenfassen. Ein Agent, der "Reasoning Agent", generiert einen detaillierten Schlussfolgerungsprozess für die eingegebene Anfrage. Ein zweiter Agent, der "Summary Agent", identifiziert die wichtigsten Informationen innerhalb dieses Prozesses und liefert eine prägnante Antwort. Ein iterativer DPO-Algorithmus (Direct Preference Optimization) verfeinert die Qualität des Schlussfolgerungsprozesses und sorgt für Stabilität und Genauigkeit.
Erste Tests mit Insight-V zeigen vielversprechende Ergebnisse. Die Integration in das etablierte LLaVA-NeXT Modell führte zu einer durchschnittlichen Leistungssteigerung von 7,0% in sieben anspruchsvollen Benchmarks für visuelles Schlussfolgern. Auch bei der Anwendung auf ein eigens entwickeltes, leistungsstarkes Basis-MLLM konnte eine Verbesserung von 2,9% erzielt werden. Diese Ergebnisse unterstreichen die Effektivität und die Generalisierbarkeit des Ansatzes.
Insight-V bietet somit eine skalierbare Pipeline zur Generierung von hochwertigen Daten für mehrstufiges Schlussfolgern, ein Multi-Agenten-System, das visuelle Schlussfolgerungsaufgaben in einzelne Schritte zerlegt, und einen zweistufigen Trainingsprozess zur Verbesserung der visuellen Schlussfolgerungsfähigkeiten. Diese Innovationen adressieren zentrale Herausforderungen im Bereich des visuellen Schlussfolgerns und bilden eine solide Grundlage für zukünftige Forschung im Bereich der MLLMs. Für Unternehmen wie Mindverse, die sich auf die Entwicklung von KI-Lösungen spezialisiert haben, eröffnen sich dadurch neue Möglichkeiten, die Leistungsfähigkeit von Chatbots, Voicebots, KI-Suchmaschinen und Wissenssystemen weiter zu verbessern. Die Kombination von visuellen und textuellen Informationen in komplexen Schlussfolgerungsprozessen könnte die Interaktion mit KI-Systemen grundlegend verändern und neue Anwendungsfelder erschließen.
Bibliographie Dong, Y., Liu, Z., Sun, H.-L., Yang, J., Hu, W., Rao, Y., & Liu, Z. (2024). Insight-V: Exploring Long-Chain Visual Reasoning with Multimodal Large Language Models. arXiv preprint arXiv:2411.14432. Dong, Y., Liu, Z., Sun, H.-L., Yang, J., Hu, W., Rao, Y., & Liu, Z. (2024). Insight-V: Exploring Long-Chain Visual Reasoning with Multimodal Large Language Models. arXiv preprint arXiv:2411.14432v1. Liu, Z. [@liuziwei7]. (n.d.). _X_. Abgerufen am 28. November 2024 von https://x.com/liuziwei7?lang=de Forschungszentrum Jülich. (2024, 28. November). Researchers reveal dramatic LLMs reasoning breakdown. https://www.fz-juelich.de/en/ias/jsc/news/news-items/news-flashes/2024/lresearchers-reveal-dramatic-llms-reasoning-breakdown liuziwei7. (n.d.). GitHub. Abgerufen am 28. November 2024 von https://github.com/liuziwei7Entdecken Sie die Vorteile gegenüber ChatGPT Plus
Sie nutzen bereits ChatGPT Plus? Das ist ein guter Anfang! Aber stellen Sie sich vor, Sie hätten Zugang zu allen führenden KI-Modellen weltweit, könnten mit Ihren eigenen Dokumenten arbeiten und nahtlos im Team kollaborieren.
Die professionelle KI-Plattform für Unternehmen – leistungsstärker, flexibler und sicherer als ChatGPT Plus. Mit über 50 Modellen, DSGVO-konformer Infrastruktur und tiefgreifender Integration in Unternehmensprozesse.
❌ Kein strukturierter Dokumentenvergleich
❌ Keine Bearbeitung im Dokumentkontext
❌ Keine Integration von Unternehmenswissen
✅ Gezielter Dokumentenvergleich mit Custom-Prompts
✅ Kontextbewusste Textbearbeitung im Editor
✅ Wissensbasierte Analyse & Zusammenfassungen
Erstellen Sie leistungsstarke Wissensdatenbanken aus Ihren Unternehmensdokumenten.Mindverse Studio verknüpft diese direkt mit der KI – für präzise, kontextbezogene Antworten auf Basis Ihres spezifischen Know-hows.DSGVO-konform, transparent und jederzeit nachvollziehbar.
❌ Nur ein Modellanbieter (OpenAI)
❌ Keine Modellauswahl pro Use Case
❌ Keine zentrale Modellsteuerung für Teams
✅ Zugriff auf über 50 verschiedene KI-Modelle
✅ Modellauswahl pro Prompt oder Assistent
✅ Zentrale Steuerung auf Organisationsebene
❌ Keine echte Teamkollaboration
❌ Keine Rechte- oder Rollenverteilung
❌ Keine zentrale Steuerung oder Nachvollziehbarkeit
✅ Teamübergreifende Bearbeitung in Echtzeit
✅ Granulare Rechte- und Freigabeverwaltung
✅ Zentrale Steuerung & Transparenz auf Organisationsebene
Nutzen Sie Mindverse Studio als zentrale Plattform für abteilungsübergreifende Zusammenarbeit.Teilen Sie Wissen, erstellen Sie gemeinsame Workflows und integrieren Sie KI nahtlos in Ihre täglichen Prozesse – sicher, skalierbar und effizient.Mit granularen Rechten, transparenter Nachvollziehbarkeit und Echtzeit-Kollaboration.
Sehen Sie Mindverse Studio in Aktion. Buchen Sie eine persönliche 30-minütige Demo.
🎯 Kostenlose Demo buchenLernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen