Für Teams, Einzelnutzer, Kanzleien und Transkription – derselbe Mindverse Look, klar aufgeteilt nach Anwendungsfall.
für Teams und Unternehmen
Die Plattform für Unternehmen, die eigene KI-Workflows, Wissensdatenbanken und Assistenten produktiv einsetzen möchten.
für Einzelnutzer und Creator
Der einfachste Einstieg in das Mindverse-Ökosystem für Content, Recherche, Bilder, Audio und produktives Arbeiten.
für Juristen und Kanzleien
Die spezialisierte KI-Lösung für juristische Recherche, Vertragsarbeit und kanzleispezifische Workflows.
für Audio, Meetings und Transkription
Schnelle KI-Transkription für Audiodateien und Meetings – ideal zum sofortigen Start oder für regelmäßige Nutzung.

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die Produktion von Videoinhalten ist ein komplexes Feld, das von subtilen künstlerischen Entscheidungen bis hin zu technischen Herausforderungen reicht. Eine grundlegende Aufgabe in der Videobearbeitung und -analyse ist die Erkennung von Szenenübergängen, bekannt als Shot Boundary Detection (SBD). Während Menschen in der Regel mühelos erkennen können, wo ein Kameraschuss endet und ein neuer beginnt, stellt dies für künstliche Intelligenz (KI)-Systeme oft eine erhebliche Hürde dar. Traditionelle Modelle stoßen an ihre Grenzen, wenn sie mit künstlerischen Überblendungen, Wischübergängen oder schnellen, abrupten Schnitten konfrontiert werden, die je nach Genre variieren können. Eine kürzlich veröffentlichte Forschung stellt mit OmniShotCut einen neuen, ganzheitlichen Ansatz vor, der diese Limitationen adressiert und die SBD-Fähigkeiten von KI-Systemen maßgeblich erweitert.
Die automatische Identifizierung von Szenenübergängen und die Unterteilung eines Videos in kohärente Shots ist seit Langem ein Forschungsfeld in der Videoverarbeitung. Trotz der scheinbaren Reife dieses Bereichs stagnierte der Fortschritt in den letzten Jahren. Bestehende SBD-Methoden weisen oft mehrere Einschränkungen auf:
OmniShotCut reformuliert die SBD als strukturierte relationale Vorhersage. Das System schätzt nicht nur die zeitlichen Bereiche von Shots, sondern auch deren intrashot-Beziehungen (Eigenschaften des Shots selbst) und intershot-Beziehungen (Beziehung zum vorhergehenden Shot). Dies wird durch einen Shot-Query-basierten Dense Video Transformer ermöglicht. Dieser Ansatz ermöglicht ein vereinheitlichtes Modell für die Vorhersage von Shot-Bereichen und das relationale Verständnis.
Das Modell klassifiziert Shots in acht Hauptkategorien für Intrashot-Beziehungen, darunter generische Videos, Überblendungen, Wischübergänge, Schiebeeffekte, Zooms, Fades und Türöffnungs-Effekte. Für Intershot-Beziehungen wird klassifiziert, ob die Grenze einem Übergang, einem harten Schnitt oder einem plötzlichen Sprung entspricht. Diese detaillierte Klassifizierung bietet ein tieferes Verständnis der Video-Struktur.
Ein wesentlicher Bestandteil von OmniShotCut ist die Verwendung eines vollständig synthetischen Datenansatzes. Um die Ungenauigkeiten manueller Labels zu umgehen, wurde eine Pipeline entwickelt, die Übergänge automatisch mit präzisen Grenzen und parametrisierbaren Varianten reproduziert. Diese Methode ermöglicht die Erstellung eines Trainingsdatensatzes mit exakten Übergangsbereichen, der auch seltene, aber realistische Fälle abdeckt, die in bestehenden Datensätzen unterrepräsentiert sind. Insgesamt wurden 11,9 Millionen synthetische Übergänge für das Training generiert.
Um eine umfassende Bewertung zu ermöglichen, wurde zudem der OmniShotCutBench eingeführt. Dieser moderne SBD-Benchmark enthält breit gefächerte, hochkomplexe Videoquellen aus Plattformen wie YouTube, TikTok und Bilibili. Er berücksichtigt sowohl Intra- als auch Intershot-Beziehungs-Labels und bietet somit eine ganzheitliche und diagnostische Bewertung für moderne Szenenübergangserkennung.
Die Kernarchitektur von OmniShotCut ist ein Shot-Query-basierter End-to-End-Video-Transformer. Dieser besteht aus einem Bild-Encoder, einem Transformer-Encoder und einem Transformer-Decoder. Der Transformer-Encoder verarbeitet die kodierten Frame-Features, wobei eine 3D-Positionskodierung die räumlichen und zeitlichen Beziehungen berücksichtigt. Der Transformer-Decoder verwendet lernbare Shot-Queries, um Shot-Bereiche sowie Intra- und Intershot-Beziehungen vorherzusagen. Die Bereichsvorhersage wird als diskretes Klassifizierungsproblem über Frame-Indizes formuliert, was zu einer verbesserten Lokalisierungspräzision führt.
Das Training des Modells erfolgte auf 8 Nvidia A100 GPUs über 70 Epochen. Dabei wurden verschiedene Online-Augmentationen eingesetzt, darunter horizontale und vertikale Spiegelungen, Farbveränderungen, Weichzeichnungen sowie Gaußsches und Poissonsches Rauschen.
Die experimentellen Ergebnisse auf dem OmniShotCutBench zeigen, dass OmniShotCut die Leistung bestehender SBD-Methoden signifikant übertrifft. Insbesondere bei der Lokalisierung von Übergängen und der Erkennung plötzlicher Sprünge erzielt das Modell herausragende Werte. Während traditionelle Methoden wie PySceneDetect, TransNetV2 und AutoShot F1-Scores zwischen 0,75 und 0,82 erreichen, erreicht OmniShotCut einen F1-Score von 0,883.
Ein besonderer Fokus liegt auf der Transition IoU (Intersection over Union), die bei OmniShotCut 0,632 beträgt, während andere Modelle lediglich Werte zwischen 0,18 und 0,25 aufweisen. Dies deutet darauf hin, dass die vorhergesagten Grenzen bei OmniShotCut wesentlich genauer mit den tatsächlichen Übergangsbereichen übereinstimmen. Die Genauigkeit bei der Erkennung plötzlicher Sprünge liegt bei 0,761, ebenfalls deutlich über den Vergleichsmodellen. Darüber hinaus erreicht das Modell eine Intrashot-Genauigkeit von 0,959 und eine Intershot-Genauigkeit von 0,836, Funktionen, die von früheren Methoden nicht unterstützt wurden.
Die Entwicklung von OmniShotCut hat weitreichende Implikationen für die Videobearbeitung und KI-gestützte Videoanalyse. Durch die verbesserte Fähigkeit, Szenenübergänge präzise zu erkennen und zu klassifizieren, könnten zukünftige Anwendungen profitieren:
Die Forschung zeigt, dass vollständig synthetische Daten ein skalierbares und effektives Paradigma für die nächste Generation von SBD-Datensätzen darstellen. Zukünftige Arbeiten könnten die Modellierung noch anspruchsvollerer künstlerischer und semantisch dynamischer Übergänge umfassen und dabei möglicherweise auf branchenübliche Übergangsvorlagen zurückgreifen.
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen