Die Welt der Künstlichen Intelligenz (KI) ist in ständiger Bewegung, und ein Bereich, der in letzter Zeit große Fortschritte gemacht hat, ist die Dense Prediction. Diese Aufgaben, zu denen unter anderem die Tiefen- und Normalenschätzung gehören, erfordern ein tiefes Verständnis visueller Informationen und haben sich als ideale Anwendungsfälle für vortrainierte Visual Foundation Models (VFMs) erwiesen. Insbesondere der Einsatz von Text-to-Image-Diffusionsmodellen, die auf großen Datensätzen trainiert wurden, hat vielversprechende Ergebnisse bei der Verbesserung der Zero-Shot-Generalisierung in Dense-Prediction-Aufgaben gezeigt.
Obwohl vielversprechend, greifen bestehende Methoden oft unkritisch auf die ursprüngliche Formulierung von Diffusionsmodellen zurück, die aufgrund der grundlegenden Unterschiede zwischen Dense Prediction und Bildgenerierung möglicherweise nicht optimal ist. Diese Diskrepanz führt zu zwei wesentlichen Herausforderungen:
Um diese Herausforderungen zu bewältigen, wurde Lotus entwickelt, ein auf Diffusion basierendes VFM, das speziell für Dense-Prediction-Aufgaben konzipiert wurde. Lotus zeichnet sich durch ein einfaches, aber effektives Adaptionsprotokoll aus, das die Vorteile von Diffusionsmodellen nutzt und gleichzeitig ihre inhärenten Einschränkungen für die Dense Prediction behebt.
Im Gegensatz zu herkömmlichen Diffusionsmodellen, die darauf trainiert werden, Rauschen vorherzusagen, geht Lotus einen anderen Weg ein. Anstatt sich auf die Modellierung von Rauschen zu konzentrieren, wird Lotus direkt auf die Vorhersage von Anmerkungen trainiert. Dieser Ansatz, der als "direkte Annotationsprognose" bezeichnet wird, bietet mehrere Vorteile:
Darüber hinaus stellt Lotus den traditionellen mehrstufigen Diffusionsprozess in Frage, indem es ihn in eine einzige Prozedur umformuliert. Diese Vereinfachung bringt mehrere Vorteile mit sich:
Um die Genauigkeit und Detailgenauigkeit seiner Vorhersagen weiter zu verbessern, führt Lotus eine neuartige Tuning-Strategie namens "Detail Preserver" ein. Dieser Mechanismus konzentriert sich darauf, während des gesamten Vorhersageprozesses feine Details zu erhalten, was zu genaueren und detaillierteren Ergebnissen führt.
Lotus hat in Benchmarks eine außergewöhnliche Leistung gezeigt und übertrifft bestehende Methoden in verschiedenen Dense-Prediction-Aufgaben. Bemerkenswert ist, dass Lotus diese Ergebnisse erzielt, ohne die Trainingsdaten oder die Modellkapazität zu vergrößern. Diese Effizienz zeigt sich in seiner beeindruckenden Inferenzgeschwindigkeit, die ihn um ein Vielfaches schneller macht als die meisten anderen diffusionsbasierten Methoden.
Lotus stellt einen bedeutenden Fortschritt im Bereich der Dense Prediction dar. Durch die Nutzung der Leistung von Diffusionsmodellen und die gleichzeitige Behebung ihrer Einschränkungen ebnet Lotus den Weg für genauere, effizientere und vielseitigere VFMs. Da sich die KI-Landschaft ständig weiterentwickelt, verspricht Lotus, die Zukunft der Dense Prediction zu prägen und den Weg für eine neue Ära intelligenter Anwendungen zu ebnen.