Effizientes Training multimodaler Foundation-Modelle mit Mixture-of-Transformers

Kategorien:

No items found.

Freigegeben:

November 8, 2024

Artikel jetzt als Podcast anhören

Multimodale Foundation-Modelle effizienter trainieren: Mixture-of-Transformers

Die Entwicklung großer Sprachmodelle (LLMs) hat sich auf multimodale Systeme ausgeweitet, die Text, Bilder und Sprache in einem einheitlichen Rahmen verarbeiten können. Das Training dieser Modelle erfordert im Vergleich zu reinen Text-LLMs deutlich größere Datensätze und Rechenressourcen. Um den Herausforderungen der Skalierung zu begegnen, stellen Forschende von Meta und der University of Washington Mixture-of-Transformers (MoT) vor, eine sparse multimodale Transformer-Architektur, die die Rechenkosten für das Vortraining deutlich reduziert.

Modalspezifische Verarbeitung mit globaler Selbstaufmerksamkeit

MoT entkoppelt die Nicht-Embedding-Parameter des Modells nach Modalität – einschließlich Feedforward-Netzwerken, Aufmerksamkeitsmatrizen und Layernormalisierung – und ermöglicht so modalspezifische Verarbeitung mit globaler Selbstaufmerksamkeit über die gesamte Eingabesequenz. Anstatt alle Modalitäten mit denselben Parametern zu verarbeiten, verfügt jede Modalität über eigene spezialisierte Komponenten innerhalb des Transformers. Die globale Selbstaufmerksamkeit stellt sicher, dass Informationen über alle Modalitäten hinweg ausgetauscht werden können, wodurch die Fähigkeit des Modells verbessert wird, Beziehungen zwischen verschiedenen Datentypen zu verstehen.

Effizienzsteigerung im Vergleich zu dichten Modellen

MoT wurde in verschiedenen Szenarien und Modellgrößen evaluiert. Im Chameleon-7B-Szenario (autoregressive Text- und Bildgenerierung) erreicht MoT die Leistung des dichten Baselines mit nur 55,8 % der FLOPs (Floating Point Operations). Bei Erweiterung um Sprache erreicht MoT eine mit dem dichten Baseline vergleichbare Sprachleistung mit nur 37,2 % der FLOPs. Im Transfusion-Szenario, in dem Text und Bild mit unterschiedlichen Zielen trainiert werden, erreicht ein 7B-MoT-Modell die Leistung des dichten Baselines in der Bildmodalität mit einem Drittel der FLOPs, und ein 760M-MoT-Modell übertrifft ein 1,4B dichtes Baseline in Bezug auf wichtige Bildgenerierungsmetriken.

Systemprofilierung unterstreicht praktische Vorteile

Die Systemprofilierung unterstreicht die praktischen Vorteile von MoT. So wird die Bildqualität des dichten Baselines in 47,2 % der Echtzeit und die Textqualität in 75,6 % der Echtzeit erreicht (gemessen auf AWS p4de.24xlarge-Instanzen mit NVIDIA A100-GPUs). Diese Ergebnisse deuten darauf hin, dass MoT nicht nur die theoretische Rechenkomplexität reduziert, sondern auch zu einer messbaren Beschleunigung des Trainings in realen Umgebungen führt.

Potenzial für ressourceneffizientere multimodale KI-Systeme

MoT adressiert die Skalierungsherausforderungen beim Training multimodaler Foundation-Modelle. Durch die modalspezifische Verarbeitung und die globale Selbstaufmerksamkeit bietet MoT eine vielversprechende Architektur für die Entwicklung ressourceneffizienterer und leistungsfähigerer multimodaler KI-Systeme. Die Ergebnisse der Evaluierung zeigen, dass MoT die Leistung dichter Modelle erreichen oder sogar übertreffen kann und gleichzeitig den Rechenaufwand deutlich reduziert. Dies eröffnet neue Möglichkeiten für die Entwicklung und den Einsatz komplexer multimodaler Anwendungen.

Bibliographie Liang, W. et al. (2024). Mixture-of-Transformers: A Sparse and Scalable Architecture for Multi-Modal Foundation Models. arXiv preprint arXiv:2411.04996. Shrivastava, A. et al. (2024). MoMa: Efficient Early-Fusion Pre-training with Mixture of Modality-Aware Experts. arXiv preprint arXiv:2407.21770v1. 01.AI et al. (2024). Yi: Open Foundation Models. arXiv preprint arXiv:2403.04652. Ma, S. et al. (2022). TorchScale: Transformers at Scale. arXiv preprint arXiv:2211.13184. Microsoft/Torchscale. (n.d.). GitHub. https://github.com/microsoft/torchscale Microsoft/UniLM. (n.d.). GitHub. https://github.com/microsoft/unilm Shrivastava, A. (2024, August 1). Excited to share our latest work on multimodal pre-training MoMa! [LinkedIn post]. LinkedIn. https://www.linkedin.com/posts/akshatsh_excited-to-share-our-latest-work-on-multimodal-activity-7224840416276144128-8mah Hugging Face – The AI community building the future. (n.d.). https://huggingface.co/papers

Was bedeutet das?