Microsoft hat mit Magma ein neues KI-Modell vorgestellt, das Software und Roboter steuern kann. Entwickelt wurde Magma, kurz für "Multimodal Agentic Model at Microsoft Research", in Zusammenarbeit mit Forschenden verschiedener US-amerikanischer Universitäten. Das Besondere an Magma ist seine Multimodalität: Es kann verschiedene Arten von Input, wie visuelle Informationen und Sprache, nicht nur verarbeiten, sondern auch darauf basierend planen und handeln. Damit unterscheidet es sich von anderen multimodalen KI-Modellen, die oft mehrere separate Modelle benötigen – eines für die Input-Verarbeitung und ein weiteres für die Steuerung von Anwendungen oder Robotern.
Magma vereint diese Fähigkeiten in einem einzigen Modell und schlägt laut Microsoft "die Brücke zwischen verbaler, räumlicher und temporaler Intelligenz, um komplexe Aufgaben und Situationen zu lösen". Die Fähigkeiten des Modells werden anhand verschiedener Beispiele demonstriert. So kann Magma beispielsweise Software auf Smartphones steuern, indem es auf Sprachbefehle reagiert und komplexe Aktionen wie das Aktivieren des Flugmodus ausführt. Auch die Navigation in Webbrowsern und die Suche nach spezifischen Informationen, wie Wetterdaten, sind möglich.
Im Bereich der Robotik kann Magma Roboterarme steuern, um Objekte präzise zu greifen, abzulegen und zu verschieben. Ein Beispiel zeigt, wie ein Roboterarm ein Tuch auf einem Tisch zentriert. Darüber hinaus kann Magma Videoinput aus Alltagssituationen verarbeiten und auf Fragen der Nutzer reagieren. So könnte die KI beispielsweise in einer Brille integriert werden und Nutzern in Echtzeit Informationen oder Handlungsempfehlungen liefern, etwa den besten Zug in einem Schachspiel vorschlagen oder Freizeitaktivitäten basierend auf den erkannten Objekten im Raum empfehlen.
Das Training von Magma erfolgte mit einer Kombination aus Bildern, Videos und Roboterdaten unter Verwendung zweier spezieller Techniken: "Set-of-Mark" und "Trace-of-Mark". Set-of-Mark ermöglicht die Ausführung von Aktionen, indem Objekte im Video mit Nummern versehen werden, wodurch die KI gezielt einzelne Elemente ansteuern kann, beispielsweise in einem User-Interface oder bei der Steuerung von Roboterarmen. Trace-of-Mark dient der Planungsphase, indem die KI Bewegungsmuster aus Videodaten lernt und so zukünftige Zustände antizipieren kann. Ein Beispiel zeigt, wie Magma die Bewegung eines Roboterarms plant, um eine Orange zu einer Wasserflasche zu bringen.
Benchmark-Tests zeigen, dass Magma in vielen Bereichen mit anderen multimodalen KI-Modellen wie GPT-4V oder Qwen-VL mithalten kann. Microsoft räumt jedoch ein, dass Magma bei komplexen Aufgaben mit vielen Schritten noch an seine Grenzen stößt. Die Forscher planen, die Inferenz- und Trainingsdaten von Magma über Github zu veröffentlichen, um die weitere Entwicklung des Modells zu fördern.
Magma stellt einen wichtigen Schritt in der Entwicklung multimodaler KI-Modelle dar. Die Fähigkeit, verschiedene Input-Modalitäten zu verarbeiten und darauf basierend zu planen und zu handeln, eröffnet neue Möglichkeiten für die Interaktion mit Software und Robotern. Die von Microsoft demonstrierten Anwendungsbeispiele reichen von der Steuerung von Smartphones und Robotern bis hin zur Unterstützung in Alltagssituationen. Trotz der vielversprechenden Ergebnisse stehen die Entwickler noch vor Herausforderungen, insbesondere bei der Bewältigung komplexer Aufgaben. Die Veröffentlichung der Trainingsdaten und die weitere Forschung in diesem Bereich werden dazu beitragen, das Potenzial von Magma und ähnlicher KI-Modelle weiter auszuschöpfen.
Bibliographie: - https://t3n.de/news/microsoft-magma-ki-modell-roboter-software-1674361/ - https://www.finanznachrichten.de/nachrichten-2025-02/64621626-microsoft-magma-dieses-ki-modell-steuert-roboter-und-software-was-daran-so-besonders-ist-397.htm - https://t3n.de/tag/roboter/ - https://www.threads.net/@t3n_magazin/post/DGVHNh5MmWK/microsoft-hat-ein-multimodales-ki-modell-erschaffen-das-nicht-nur-software-sonde - https://m.facebook.com/story.php?story_fbid=1055527636612388&id=100064654845221 - https://t3n.de/tag/kuenstliche-intelligenz/ - https://t3n.de/ - https://newstral.com/de/article/de/1263671417/microsoft-magma-dieses-ki-modell-steuert-roboter-und-software-was-daran-so-besonders-ist - https://x.com/t3n?lang=de