Fortschritte in KI und Computergrafik: Baidu präsentiert bahnbrechendes Videoerzeugungssystem

Kategorien:
No items found.
Freigegeben:

In der Welt der künstlichen Intelligenz und der Computergrafik schreitet die Entwicklung mit atemberaubender Geschwindigkeit voran. Ein herausragendes Beispiel dafür ist die jüngste Präsentation eines neuen Systems zur Videoerzeugung durch das Technologieunternehmen Baidu. Dieses System, bekannt als UniVG, markiert einen wichtigen Schritt in Richtung einer einheitlichen, modalitätsübergreifenden Videogenerierung und veranschaulicht die fortschreitenden Bemühungen in der Forschung und Entwicklung von KI-gestützter Videoerstellung.

Die Videogenerierung basierend auf Diffusionsprozessen hat in den letzten Jahren sowohl in der akademischen Forschung als auch in der Industrie große Beachtung gefunden und bereits beeindruckende Erfolge erzielt. Traditionell konzentrieren sich die Anstrengungen auf die Erstellung von Videos, die durch einzelne Modalitäten wie Text, Bild oder eine Kombination aus beidem angetrieben werden. Diese Ansätze stoßen jedoch bei der Anwendung in realen Szenarien an ihre Grenzen, da Nutzer häufig die Flexibilität benötigen, Bilder und Textbedingungen einzeln oder in Kombination zu verwenden.

Baidu hat auf diese Herausforderung reagiert und ein System entwickelt, das in der Lage ist, mehrere Aufgaben der Videogenerierung über Text- und Bildmodalitäten hinweg zu bewältigen. Das System bietet einen generativen Freiraum, indem es verschiedene Aufgaben der Videogenerierung aus einer neuen Perspektive betrachtet und in Kategorien mit hohem und niedrigem Freiheitsgrad einteilt.

Für die Generierung von Videos mit hohem Freiheitsgrad verwendet das System eine Multi-Condition Cross Attention, die Videos erzeugt, die inhaltlich mit den Semantiken der eingegebenen Bilder oder Texte übereinstimmen. Bei der Generierung von Videos mit niedrigem Freiheitsgrad führt das System Biased Gaussian Noise ein, um das reine zufällige Gaußsche Rauschen zu ersetzen. Dieser Ansatz hilft dabei, den Inhalt der Eingabebedingungen besser zu erhalten.

Die Ergebnisse des Systems sind bemerkenswert. Es erreicht die niedrigste Fréchet Video Distanz (FVD) auf dem öffentlichen akademischen Benchmark MSR-VTT und übertrifft die aktuellen Open-Source-Methoden in Human Evaluations. Dabei ist es gleichauf mit der aktuellen Closed-Source-Methode Gen2, was die Leistungsfähigkeit des Systems unterstreicht.

Diese Fortschritte sind Teil von Baidus kontinuierlichem Engagement im Bereich der KI-Forschung. Mit einem Fokus auf KI und autonomes Fahren hat das Unternehmen erst kürzlich seine Liste der Top 10 Frontier Technology Inventions des Jahres 2022 veröffentlicht. Diese Liste hebt zehn der bahnbrechenden Kreationen Baidus hervor, die das Potenzial haben, die Welt, in der wir leben, im nächsten Jahrzehnt maßgeblich zu gestalten.

Unter den Erfindungen finden sich Technologien wie das weltweit erste Cross-Modal AIGC-Modell zur Vereinheitlichung des visuell-sprachlichen Verständnisses und der Erzeugung, ein Multi-Sensor-Fusionssystem zur Navigation von fahrerlosen Autos auf komplexen städtischen Straßen und ein wissensverstärktes großes Sprachmodell mit außergewöhnlichen Verständnis- und Schreibfähigkeiten.

Darüber hinaus betont Baidu die Bedeutung von unabhängiger Innovation und Patentschutz, die durch ein vollständiges System zum Schutz geistigen Eigentums unterstützt werden. Mit über einem Jahrzehnt intensiver Investitionen in KI hat Baidu seine kumulativen F&E-Ausgaben auf 100 Milliarden Yuan summiert und führt in China in Bezug auf KI-Patentanmeldungen und -genehmigungen für vier aufeinanderfolgende Jahre.

Das Unternehmen steht auch hinter ERNIE Bot, einem neuen, groß angelegten Sprachmodell und generativen KI-Produkt, das in Bereichen wie literarischer Schaffung, Geschäftsschreiben, mathematischer Berechnung, Verständnis der chinesischen Sprache und multimodaler Erzeugung brilliert.

Baidu sieht eine Zukunft voraus, in der es mit allen zusammenarbeitet, um die Entwicklung der KI voranzutreiben und jedem Einzelnen Zugang zu hochmodernen Produktivitätswerkzeugen zu ermöglichen, wobei die Vorteile dieser Fortschritte von allen geteilt werden.

Die Entwicklung von UniVG steht exemplarisch für die dynamische Natur des Technologiefortschritts und die Bestrebungen führender Unternehmen wie Baidu, die Grenzen des Machbaren im Bereich der KI und der visuellen Inhalteerstellung zu erweitern. Mit dem Blick auf die Zukunft ist es wahrscheinlich, dass diese Technologien weiterhin innovative Anwendungen hervorbringen werden, die das Potenzial haben, zahlreiche Branchen zu transformieren und neue Möglichkeiten für Kreativität und Interaktion zu schaffen.

Was bedeutet das?
No items found.