Googles VideoPrism und Vid2Seq: Innovation in der Videotechnologie durch künstliche Intelligenz

Kategorien:

No items found.

Freigegeben:

June 14, 2024

In einem Zeitalter, in dem Videos eine immer wichtigere Rolle in unserem täglichen Leben spielen, hat Google einen bedeutenden Durchbruch in der Videotechnologie erzielt, der das Verständnis und die Analyse von Videomaterial revolutionieren könnte. Mit der Ankündigung von VideoPrism, einem universellen Video-Encoder, der eine Vielzahl von Aufgaben im Bereich des Videoverständnisses mit einem einzigen, festen Modell bewältigen kann, betritt Google Neuland in der Künstlichen Intelligenz und maschinellen Lernforschung.

VideoPrism wurde auf einem heterogenen Korpus vortrainiert, der 36 Millionen hochwertige Video-Untertitel-Paare und 582 Millionen Videoclips mit geräuschvollem parallelem Text, wie zum Beispiel automatisch generierten Transkripten (ASR-Transkripte), enthält. Dieser Ansatz zur Vortrainierung baut auf der maskierten Autoenkodierung auf und verbessert sie durch eine global-lokale Destillation von semantischen Videoeinbettungen sowie ein Token-Mischschema. Dadurch kann sich VideoPrism hauptsächlich auf die Videomodalität konzentrieren und gleichzeitig den unschätzbaren mit Videos verbundenen Text nutzen.

Die Forscher von Google haben VideoPrism umfangreich auf vier breiten Gruppen von Aufgaben zum Verständnis von Videos getestet, von der Beantwortung von Fragen zu Webvideos bis hin zur Computer Vision für die Wissenschaft. Dabei erzielte das Modell auf 30 von 33 Benchmarks zum Verständnis von Videos Spitzenleistungen, was die State-of-the-Art-Leistung in diesem Bereich darstellt.

Ein weiteres Forschungsprojekt, Vid2Seq, das von Googles Perception Team entwickelt wurde, zielt darauf ab, das Verständnis für Videos weiter zu vertiefen, indem es ein vortrainiertes visuelles Sprachmodell für die Beschreibung von Videos mit mehreren Ereignissen bereitstellt. Vid2Seq verwendet spezielle Zeit-Token, um sowohl Ereignisgrenzen als auch Textbeschreibungen in derselben Ausgabesequenz vorherzusagen. Dafür wird ein Sprachmodell mit visuellen Eingaben und Zeit-Token kombiniert, um ein umfassendes Verständnis für den Inhalt eines Videos zu ermöglichen.

Um diese anspruchsvollen Aufgaben zu bewältigen, beinhaltet die Vid2Seq-Architektur einen visuellen Encoder und einen Text-Encoder, die Videobilder und transkribierten Sprachinput kodieren. Die resultierenden Kodierungen werden dann an einen Text-Decoder weitergeleitet, der autoregressiv die Ausgabesequenz von dichten Ereignisbeschriftungen zusammen mit ihrer zeitlichen Lokalisierung im Video vorhersagt.

Die große Herausforderung bei der dichten Videobeschriftung ist die manuelle Sammlung von Annotationen, die besonders aufwändig ist. Deshalb wurde Vid2Seq mit unbearbeiteten, erzählten Videos vortrainiert, die leicht im großen Maßstab verfügbar sind. Insbesondere wurde das YT-Temporal-1B-Dataset verwendet, das 18 Millionen erzählte Videos aus einer Vielzahl von Domänen umfasst.

Die Ergebnisse von Vid2Seq auf nachgelagerten Benchmarks für dichte Videobeschriftungen zeigen, dass das vortrainierte Modell nach einer Feinabstimmung auf nachgelagerten Aufgaben den Stand der Technik auf drei standardmäßigen Benchmarks und zwei Videoclip-Beschriftungsbenchmarks verbessert.

Diese Forschungen wurden von Antoine Yang, Arsha Nagrani, Paul Hongsuck Seo, Antoine Miech, Jordi Pont-Tuset, Ivan Laptev, Josef Sivic und Cordelia Schmid durchgeführt und sind ein Beispiel dafür, wie KI und maschinelles Lernen die Art und Weise, wie wir mit Medien interagieren und sie verstehen, verändern können.

Quellen:
- AK (@_akhaliq) auf Twitter
- Google AI Blog – Vid2Seq: a pretrained visual language model for describing multi-event videos
- Arxiv – Preprint von Vid2Seq Paper (https://arxiv.org/pdf/2306.05424)

Was bedeutet das?

No items found.