Ferret-UI: Apples Durchbruch in multimodaler KI für mobile Benutzeroberflächen

Kategorien:

No items found.

Freigegeben:

June 14, 2024

In den letzten Jahren hat sich die Landschaft der künstlichen Intelligenz (KI) rasant weiterentwickelt und mit ihr die Fähigkeit von Maschinen, menschliche Sprache und Bilder zu verstehen. Ein neues, aufsehenerregendes Beispiel für diese Fortschritte ist das von Apple vorgestellte Ferret-UI, ein multimodales Großsprachmodell (Multimodal Large Language Model, MLLM), das speziell für mobile Benutzeroberflächen entwickelt wurde. Dieses Modell ist in der Lage, den Inhalt des iPhone-Bildschirms präzise zu deuten und zu lokalisieren, was einen bedeutenden Fortschritt in der Interaktion zwischen Mensch und Maschine darstellt.

Ferret-UI repräsentiert die neueste Generation von KI-Modellen, die nicht nur Text oder Bilder alleine verarbeiten, sondern beide Modalitäten gleichzeitig nutzen können, um eine umfassendere Interpretation und Interaktion zu ermöglichen. Diese Modelle werden als multimodal bezeichnet, weil sie mehrere Arten von Eingabedaten – wie Sprache, Text und Bilder – gleichzeitig verarbeiten können. Ferret-UI geht noch einen Schritt weiter und integriert die Fähigkeit, auch auf komplexe Nutzeranweisungen zu reagieren, die sich auf spezifische Bereiche eines Bildschirms beziehen.

Die Entwicklung von Ferret-UI basiert auf dem Konzept des Referierens und Verortens (Refer and Ground), das bedeutet, dass das Modell in der Lage ist, auf eine bestimmte Anfrage hin auf den entsprechenden Bereich des Bildschirms zu zeigen. Dies ist besonders nützlich für Anwendungen wie die Unterstützung von Benutzern bei der Navigation durch komplexe Menüs oder das Verständnis von Inhalten, die auf dem Bildschirm angezeigt werden.

Um diese Fähigkeiten zu erreichen, verwendet Ferret-UI eine neuartige hybride Regionendarstellung, die diskrete Koordinaten und kontinuierliche Merkmale kombiniert, um einen Bereich in einem Bild zu repräsentieren. Dies ermöglicht es dem Modell, verschiedenste Eingaben wie Punkte, Begrenzungsrahmen und frei geformte Formen zu akzeptieren. Darüber hinaus wurde Ferret mit einem umfangreichen Trainingsdatensatz namens GRIT (Refer-and-Ground Instruction Tuning Dataset) trainiert, der über 1,1 Millionen Beispiele enthält, die reichhaltiges hierarchisches räumliches Wissen vermitteln und zusätzlich 95.000 schwierige negative Daten enthalten, um die Robustheit des Modells zu fördern.

Die Entwickler von Ferret-UI haben auch eine neuartige visuelle Abtastvorrichtung (spatial-aware visual sampler) vorgeschlagen, die in der Lage ist, den unterschiedlichen Grad der Verteilung über verschiedene Formen hinweg zu handhaben. Dieser Ansatz ermöglicht es dem Modell, kontinuierliche Merkmale aus den vielfältigen Regionen zu extrahieren, was zu einer verbesserten Beschreibung von Bilddetails und einer bemerkenswerten Verringerung der Objekthalluzination führt.

Ferret-UI und das zugrundeliegende Modell Ferret werden auf der International Conference on Learning Representations (ICLR) vorgestellt, einer der führenden wissenschaftlichen Veranstaltungen im Bereich des maschinellen Lernens. Die Bereitstellung des Codes und der Daten im Rahmen einer Open-Source-Initiative ermöglicht es Forschern und Entwicklern weltweit, auf die Arbeit von Apple aufzubauen und sie für ihre eigenen Projekte zu nutzen.

Die Vorstellung von Ferret-UI ist ein weiterer Beweis dafür, dass wir uns in einer Zeit des Übergangs befinden, in der KI-Systeme zunehmend in der Lage sind, komplexe, multimodale Daten auf eine Weise zu verarbeiten, die bisher dem Menschen vorbehalten war. Mit Tools wie Ferret-UI könnte die Art und Weise, wie wir mit unseren Geräten interagieren, sich grundlegend verändern, indem wir natürlichere und intuitivere Schnittstellen nutzen, die unser Verständnis von Sprache und Bildern besser nachahmen.

Quellen:
- You, Haoxuan, et al. "Ferret: Refer and Ground Anything Anywhere at Any Granularity." arXiv preprint arXiv:2310.07704 (2023).
- GitHub Repository für Ferret: https://github.com/apple/ml-ferret
- YouTube-Video "Apple Ferret a Multimodal LLM: The First Comprehensive Guide (Quick Demo with steps)" von JarvisLabs AI.
- Twitter-Account von Zhe Gan (@zhegan4).
- Diskussionen und Kommentare auf News.YCombinator.com und LinkedIn-Artikel von Sindhuja Nagarajan über Ferret.
- Beiträge zur ICLR 2024 Konferenz auf OpenReview.net.