Die virtuelle Anprobe von Kleidung hat in den letzten Jahren erhebliche Fortschritte gemacht. Dennoch stehen bestehende Verfahren vor Herausforderungen, insbesondere bei der Erzeugung fotorealistischer und detailgetreuer Darstellungen in verschiedenen Anwendungsszenarien. Probleme wie die originalgetreue Wiedergabe von Texturen und die größenangepasste Darstellung von Kleidungsstücken beeinträchtigen die Qualität der Ergebnisse. Ein neuer Ansatz namens FitDiT verspricht nun, diese Hürden zu überwinden.
FitDiT nutzt Diffusion Transformers (DiT), eine spezielle Architektur neuronaler Netze, die sich durch eine effiziente Parameterverteilung und eine besondere Aufmerksamkeit auf hochauflösende Merkmale auszeichnet. Dieser Ansatz ermöglicht eine detailliertere und realistischere Darstellung von Kleidungsstücken in virtuellen Anproben.
Ein Kernaspekt von FitDiT ist die verbesserte Wiedergabe von Texturen. Ein spezieller Garment Texture Extractor, der mit Garment Priors Evolution arbeitet, analysiert und optimiert die Kleidungsstückmerkmale. Dadurch werden feine Details wie Streifen, Muster und Texte präziser erfasst und in der virtuellen Anprobe dargestellt. Zusätzlich kommt Frequency-Domain Learning zum Einsatz. Ein speziell angepasster Frequency Distance Loss optimiert die Darstellung von hochfrequenten Details, was zu einer realistischeren Darstellung von Texturen führt.
Ein weiteres Problem herkömmlicher virtueller Anproben ist die korrekte Größendarstellung, insbesondere bei Kleidungsstücken unterschiedlicher Kategorien. FitDiT adressiert dieses Problem mit einer Dilated-Relaxed Mask Strategie. Diese passt sich der tatsächlichen Länge des Kleidungsstücks an und verhindert, dass bei der virtuellen Anprobe der gesamte Maskenbereich ausgefüllt wird, was zu unrealistischen Ergebnissen führen kann. Dadurch wird eine präzisere und realistischere Darstellung der Kleidungsstücke in der virtuellen Anprobe gewährleistet.
In sowohl qualitativen als auch quantitativen Evaluierungen übertrifft FitDiT bisherige Verfahren. Die Ergebnisse zeigen eine verbesserte Passform der Kleidungsstücke mit fotorealistischen und detailreichen Texturen. Trotz der hohen Detailtreue erreicht FitDiT nach einer Optimierung der DiT-Struktur eine wettbewerbsfähige Inferenzzeit von 4,57 Sekunden für ein einzelnes Bild mit 1024x768 Pixeln und übertrifft damit vergleichbare Methoden.
Die Entwicklung von FitDiT stellt einen wichtigen Fortschritt im Bereich der virtuellen Anprobe dar. Die verbesserte Texturwiedergabe, die größenangepasste Darstellung und die hohe Effizienz bieten das Potenzial, das Online-Shopping-Erlebnis für Kunden deutlich zu verbessern. Für Unternehmen eröffnet die Technologie neue Möglichkeiten, Produkte realistischer zu präsentieren und die Kundenbindung zu stärken. Zukünftige Forschung könnte sich auf die weitere Optimierung der Inferenzzeit und die Integration von FitDiT in verschiedene E-Commerce-Plattformen konzentrieren.
Bibliographie: Jiang, B., Hu, X., Luo, D., He, Q., Xu, C., Peng, J., Zhang, J., Wang, C., Wu, Y., & Fu, Y. (2024). FitDiT: Advancing the Authentic Garment Details for High-fidelity Virtual Try-on. arXiv preprint arXiv:2411.10499. Yang, H., Zang, Y., & Liu, Z. (2024). High-Fidelity Virtual Try-on with Large-Scale Unpaired Learning. arXiv preprint arXiv:2411.01593. Xing, J., Xu, C., Qian, Y., Liu, Y., Dai, G., Sun, B., Liu, Y., & Wang, J. (2024). TryOn-Adapter: Efficient Fine-Grained Clothing Identity Adaptation for High-Fidelity Virtual Try-On. arXiv preprint arXiv:2404.00878. Islam, T., Miron, A., Liu, X., & Li, Y. (2023). Image-based virtual try-on: Fidelity and simplification. Available at SSRN 4342099. Waqas, U., Jeon, Y., & Lee, D. (2024). Virtual Try-On: Real-Time Interactive Hybrid Network with High-Fidelity. Proceedings of the AAAI Conference on Artificial Intelligence, 38(21), 23847-23849. Izmailova, E. S., Wagner, J. A., & Perakslis, E. D. (2018). Wearable devices in clinical trials: hype and hypothesis. Clinical Pharmacology & Therapeutics, 104(1), 42-52. Fleerackers, T. (2018). Hdbw-digital culture trendwatching. Flatworld Business. https://flatworldbusiness.wordpress.com/flat-education/assignments-hdbw-digital-culture-trendwatching/ The Interline. (n.d.). The IoT issue (6th ed.).