WorldMark: Neuer Standard zur Bewertung interaktiver Video-Weltmodelle

Kategorien:

No items found.

Freigegeben:

April 25, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

WorldMark ist ein neuer, umfassender Benchmark zur standardisierten Bewertung interaktiver Video-Weltmodelle.
Er adressiert die Herausforderung, dass bisherige Modelle auf proprietären Benchmarks getestet wurden, was einen fairen Vergleich erschwerte.
WorldMark bietet eine einheitliche Aktionsschnittstelle, die WASD-ähnliche Befehle in die nativen Steuerungsformate verschiedener Modelle übersetzt.
Der Benchmark umfasst eine hierarchische Testsuite von 500 Fällen mit variierenden Schwierigkeitsgraden, Perspektiven und Szenenstilen.
Die Bewertung erfolgt anhand von metrischen Dimensionen wie visueller Qualität, Kontrolleinhaltung und Weltkonsistenz.
Erste Ergebnisse zeigen, dass visuelle Qualität und Weltkonsistenz oft unkorreliert sind und die Generierung aus der Third-Person-Perspektive eine besondere Herausforderung darstellt.
WorldMark und die zugehörige Online-Plattform World Model Arena sollen die Forschung und Entwicklung in diesem Bereich beschleunigen.

Die Forschung im Bereich der interaktiven Video-Weltmodelle schreitet rasant voran. Modelle wie Genie, YUME oder HY-World ermöglichen die Generierung dynamischer Videosequenzen, die auf Benutzereingaben reagieren. Bislang fehlte es jedoch an einer standardisierten Methode, um die Leistungsfähigkeit dieser Modelle objektiv und vergleichbar zu bewerten. Jedes Modell wurde in der Regel mit eigenen Szenarien und Bewertungskriterien getestet, was einen direkten Vergleich unmöglich machte. Diese Lücke soll nun durch die Einführung von WorldMark, einer vereinheitlichten Benchmark-Suite für interaktive Video-Weltmodelle, geschlossen werden.

Die Herausforderung der Modellbewertung

Interaktive Video-Weltmodelle sind darauf ausgelegt, plausibel auf Aktionen und Kamerasteuerungen zu reagieren und eine langfristige Szenenerinnerung zu bewahren. Trotz erheblicher Fortschritte in der Videogenerierung, die von GAN- und VAE-basierten Ansätzen bis hin zu grossen Video-Diffusions-Transformatoren wie Sora reichen, mangelte es an einem gemeinsamen "Spielfeld" für die Leistungsbewertung. Bestehende Benchmarks konzentrieren sich oft auf die allgemeine Videoqualität oder spezifische Aspekte wie physikalische Plausibilität, bieten aber keine standardisierten Bedingungen für interaktionelle Modelle. Dies führte dazu, dass selbst identische Metriken aufgrund unterschiedlicher Szenen, Trajektorien und Aktionsdefinitionen nicht vergleichbar waren.

WorldMark: Ein einheitlicher Ansatz für interaktive Weltmodelle

WorldMark wurde entwickelt, um diese Fragmentierung zu überwinden und eine faire, "Äpfel-mit-Äpfeln"-Vergleichbarkeit über verschiedene interaktive Bild-zu-Video (I2V)-Weltmodelle hinweg zu ermöglichen. Die Benchmark-Suite basiert auf drei Hauptpfeilern:

1. Einheitliche Testinfrastruktur

Ein Kernstück von WorldMark ist eine vereinheitlichte Aktions-Mapping-Schicht. Diese Schicht übersetzt ein gemeinsames WASD-ähnliches Aktionsvokabular (Vorwärts, Rückwärts, Seitwärts, Gieren) in das native Steuerungsformat jedes Modells. Dies kann beispielsweise die Umwandlung in sprachbasierte Anweisungen für YUME, strukturierte Pose-Parameter für HY-World oder Gamepad-Steuerungen für Genie umfassen. Dadurch erhalten alle Modelle semantisch identische Anweisungen in denselben Szenen.

Die hierarchische Testsuite von WorldMark umfasst 500 Evaluierungsfälle, die aus 50 Referenzbildern generiert wurden. Diese decken sowohl die First- als auch die Third-Person-Perspektive ab und umfassen fotorealistische sowie stilisierte Szenen. Die Schwierigkeitsgrade sind in drei Stufen unterteilt:

Einfach (20s): Einzelsegment-Trajektorien (z.B. reine Vorwärtsbewegung), die die grundlegende Aktionsbefolgung testen.
Mittel (40s): Zweisegment-Kompositionen (z.B. vorwärts, dann drehen), die reibungslose Übergänge zwischen Bewegungstypen erfordern.
Schwer (60s): Dreisegment-Sequenzen mit komplexen Patrouillenrouten oder 360-Grad-Panoramarotationen, die eine nachhaltige Weltkonsistenz über längere Zeiträume hinweg fordern.

Ein Vision-Language Model (VLM) wird eingesetzt, um kontextuell plausible Aktionen für jedes Referenzbild auszuwählen und so physikalisch unrealistische Bewegungen auszuschliessen.

2. Modulares Evaluierungstoolkit

WorldMark bietet eine standardisierte Suite von Metriken, die drei Hauptdimensionen der Videogenerierungsqualität abdecken:

Visuelle Qualität: Bewertet die Wiedergabetreue pro Frame, unterteilt in:
- Ästhetische Qualität: Misst die menschlich wahrgenommene ästhetische Anziehungskraft.
- Bildgebungsqualität: Quantifiziert geringfügige Verzerrungen wie Überbelichtung, Rauschen oder Unschärfe.
Kontrolleinhaltung (Control Alignment): Misst die Treue zu den Eingabeaktionen:
- Translationsfehler: Bewerten die räumliche Konsistenz zwischen dem generierten Video und der Kameratrajektorie.
- Rotationsfehler: Messen die Ausrichtungsgenauigkeit der Kamerarotation.
Weltkonsistenz (World Consistency): Erfasst die zeitliche Kohärenz und 3D-Plausibilität:
- Reprojektionsfehler: Bewerten die 3D-räumliche Kohärenz und Stabilität der Szene.
- Zustandskonsistenz: Überprüft die raumzeitliche Stabilität von Objekten (Form, Textur, Bewegung).
- Inhaltskonsistenz: Bestraft plötzliches Erscheinen oder Verschwinden von Objekten (Halluzinationen).
- Stilkonsistenz: Beurteilt die globale visuelle Treue und ästhetische Einheitlichkeit des Videos.

Die modulare Struktur des Toolkits erlaubt es Forschenden, eigene Metriken zu integrieren, während die standardisierten Eingaben beibehalten werden.

3. World Model Arena

Ergänzend zu den Offline-Metriken wurde die World Model Arena (warena.ai) ins Leben gerufen, eine Online-Plattform, die es Nutzern ermöglicht, führende Weltmodelle direkt miteinander zu vergleichen und die Live-Rangliste zu verfolgen.

Experimente und erste Erkenntnisse

Im Rahmen der initialen Evaluierung wurden sechs repräsentative Modelle – YUME 1.5, Matrix-Game 2.0, HY-World 1.5, HY-GameCraft, Open-Oasis und Genie 3 – auf WorldMark getestet. Die Experimente umfassten sowohl First- als auch Third-Person-Szenarien in realistischen und stilisierten Umgebungen.

Wichtige Beobachtungen:

Visuelle Qualität vs. Weltkonsistenz: Die Ergebnisse legen nahe, dass visuelle Qualität und Weltkonsistenz weitgehend unkorreliert sind. Beispielsweise produzierte YUME 1.5 die ästhetisch ansprechendsten Frames, zeigte jedoch Defizite in der logischen Kohärenz der Welt. Genie 3 hingegen wies die höchste Weltkonsistenz auf, jedoch mit moderaterer visueller Wiedergabetreue.
Kontrolleinhaltung und Gesamtqualität: Eine präzise Kontrolleinhaltung ist kein Indikator für die Gesamtqualität. HY-Game befolgte Befehle exakt, dies ging jedoch auf Kosten der visuellen Qualität. Genie 3 hatte höhere Trajektorienfehler, bewahrte aber eine global kohärente Welt.
Third-Person-Generierung als Herausforderung: Die Generierung aus der Third-Person-Perspektive erwies sich als erhebliche Schwachstelle für mehrere Modelle. Der Wechsel von der First- zur Third-Person-Ansicht führte beispielsweise bei Matrix-Game 2.0 zu einem etwa zwanzigfachen Anstieg des Rotationsfehlers, was die Schwierigkeit der Kamerasteuerung um einen sichtbaren Charakter verdeutlicht.
Transfer von domänenspezifischem Training: Modelle, die für spezifische Domänen trainiert wurden, zeigten Schwierigkeiten beim Transfer auf andere Szenarien. Open-Oasis, trainiert auf Minecraft-Umgebungen, versagte in realen und stilisierten Szenen über alle Metriken hinweg.

Diese Erkenntnisse unterstreichen die Komplexität der Entwicklung robuster interaktiver Video-Weltmodelle und die Notwendigkeit standardisierter Evaluierungswerkzeuge wie WorldMark.

Fazit und Ausblick

WorldMark stellt einen wichtigen Schritt zur Standardisierung der Bewertung von interaktiven Video-Weltmodellen dar. Durch die Bereitstellung eines einheitlichen Rahmens für Tests und Metriken ermöglicht es Forschenden und Entwicklern, die Leistungsfähigkeit ihrer Modelle objektiv zu vergleichen und gezielt zu verbessern. Die gewonnenen Erkenntnisse bieten wertvolle Anhaltspunkte für die zukünftige Forschung, insbesondere in Bezug auf die Korrelation zwischen visueller Ästhetik, Kontrolleinhaltung und langfristiger Weltkonsistenz. Die Verfügbarkeit der Daten, des Evaluierungscodes und der Modellausgaben fördert die Transparenz und Zusammenarbeit in der KI-Gemeinschaft und wird voraussichtlich die Entwicklung noch realistischerer und steuerbarer virtueller Welten beschleunigen.

Die kontinuierliche Weiterentwicklung von Benchmarks wie WorldMark ist entscheidend, um den Fortschritt in der interaktiven Videogenerierung zu messen und die Entwicklung von KI-Systemen voranzutreiben, die in der Lage sind, komplexe und dynamische Umgebungen kohärent zu simulieren.