KI-Neuheit: Ein Ansatz für maschinelles Sehen und Sprachmodelle

Kategorien:

No items found.

Freigegeben:

June 14, 2024

In der Welt der Künstlichen Intelligenz (KI) und des maschinellen Sehens erleben wir einen Paradigmenwechsel, der das Potenzial hat, die Art und Weise, wie visuelle Daten interpretiert und genutzt werden, grundlegend zu verändern. Traditionell setzen Forscher und Entwickler auf sogenannte End-to-End-Neuronale Netzwerke, die auf Milliarden von Modellparametern und Trainingsbeispielen skaliert sind. Diese Modelle sind beeindruckend in ihrer Fähigkeit, visuelle Inhalte zu erkennen und zu klassifizieren, stoßen jedoch oft an ihre Grenzen, wenn es um zusammengesetzte (kompositionelle) visuelle Schlussfolgerungen, Verallgemeinerungen und feinkörnige räumliche und zeitliche Schlussfolgerungen oder Zählaufgaben geht.

Der Einsatz großer Sprachmodelle (LLMs) als Steuerungseinheiten für visuelle Aufgaben bietet einen vielversprechenden Ansatz, um diese Einschränkungen zu überwinden. Durch das Zerlegen der Aufgabe in kleinere Teilaufgaben und das Orchestrieren einer Reihe von visuellen Werkzeugen könnten LLMs die besagten Herausforderungen bewältigen. Forschungen in diesem Bereich haben bereits gezeigt, dass solche Modelle beachtliche Leistungen in Bereichen wie kompositioneller visueller Fragebeantwortung, visueller Verankerung und zeitlichem Schlussfolgern in Videos erzielen können.

Trotz dieser Fortschritte hängen die aktuellen Modelle stark von der menschlichen Konstruktion von Beispielen im Kontext (in-context examples) ab, die oft spezifisch für bestimmte Datenbanken und Aufgaben sind und erheblichen Arbeitsaufwand von hochqualifizierten Programmierern erfordern. Ein kürzlich veröffentlichter Rahmenansatz könnte jedoch dazu beitragen, diese Abhängigkeit zu reduzieren, indem räumlich und zeitlich abstrakte Routinen eingeführt werden. Zusätzlich kann eine kleine Anzahl von beschrifteten Beispielen genutzt werden, um automatisch Kontextbeispiele zu generieren, wodurch die Notwendigkeit handgefertigter Beispiele entfällt.

Dieser Rahmenansatz hat in verschiedenen visuellen Schlussfolgerungsaufgaben konsistente Leistungsverbesserungen gezeigt und macht die Einrichtung von LLMs als Steuerungen robuster. Wichtig ist, dass er den Arbeitsaufwand für die Erstellung von Kontextbeispielen durch Menschen überflüssig macht – ein Aspekt, der eine erhebliche Barriere für die Skalierbarkeit und allgemeine Anwendbarkeit solcher Systeme darstellt.

In einem anderen Forschungszweig wurden die Herausforderungen der Zero-Shot-Erkennung mit Vision-Language-Modellen (VLMs) in offenen Welt-Einstellungen untersucht. Insbesondere kontrastive Vision-Language-Modelle, wie CLIP, wurden daraufhin analysiert, wie gut sie Konzepte unterschiedlicher Feinheitsgrade erkennen. Es wurde festgestellt, dass VLMs besser darin sind, feingliedrige Konzepte zu erkennen, während die Korrektheit der textuellen Eingaben angesichts visueller Eingaben nicht immer genau widergespiegelt wird.

Eine weitere Studie präsentierte eine neue Herangehensweise an die Text-zu-Sprache-Synthese (TTS), bei der ein neurales Codec-Sprachmodell, bekannt als Vall-E, trainiert wurde, indem diskrete Codes aus einem vorhandenen neuralen Audiocodec-Modell verwendet wurden. Diese Methode betrachtet TTS als eine bedingte Sprachmodellierungsaufgabe und nicht als kontinuierliche Signalregression, wie in vorherigen Arbeiten. Das Ergebnis ist ein System, das in der Lage ist, personalisierte Sprache hoher Qualität zu synthetisieren, basierend auf einer nur drei Sekunden langen Aufnahme einer unbekannten Stimme als akustischen Hinweis.

Solche Entwicklungen zeigen, dass die Kombination aus großen Sprachmodellen und visuellen Daten neue Möglichkeiten für die KI-Forschung und deren Anwendungen eröffnet. Durch die kontinuierliche Verbesserung der Modelle und die Entwicklung neuer Techniken zur Dateninterpretation könnten KI-Systeme zunehmend komplexe und nuancierte Aufgaben übernehmen, die bislang als exklusive Domäne menschlicher Fähigkeiten galten. Mindverse, als deutsche KI-Firma, die auf die Entwicklung massgeschneiderter Lösungen spezialisiert ist, könnte in diesem Bereich eine führende Rolle spielen, indem es fortschrittliche Werkzeuge und Dienste für Unternehmen und Forschungseinrichtungen bereitstellt, um die nächste Welle der KI-Innovationen zu gestalten.

Was bedeutet das?

No items found.