Das französische KI-Unternehmen Mistral AI hat Pixtral Large vorgestellt, ein multimodales Sprachmodell mit beeindruckenden 124 Milliarden Parametern. Gleichzeitig wurde eine Aktualisierung für das textbasierte Modell Mistral Large veröffentlicht, nun in der Version 24.11.
Pixtral Large kombiniert einen 123 Milliarden Parameter starken Decoder mit einem dedizierten Vision-Encoder mit einer Milliarde Parametern. Das Modell ist darauf ausgelegt, Dokumente, Diagramme und Bilder zu verarbeiten und zu verstehen. Mit einem Kontextfenster von 128.000 Token kann Pixtral Large bis zu 30 hochauflösende Bilder gleichzeitig analysieren.
In Benchmarks schneidet Pixtral Large hervorragend ab und übertrifft in vielen Fällen Modelle wie GPT-4o, Claude-3.5 Sonnet und Gemini-1.5 Pro. Beispiele hierfür sind MathVista (69,4% gegenüber 65,4% bei GPT-4o), ChartQA (88,1% im Vergleich zu 89,1% bei Claude-3.5 Sonnet) und DocVQA (93,3% gegenüber 88,5% bei GPT-4o).
Die Anwendungsfälle von Pixtral Large sind vielfältig und reichen von mehrsprachiger OCR bis hin zur detaillierten Analyse komplexer Daten. Das Modell kann beispielsweise Rechnungen analysieren, Trainingskurven von KI-Modellen interpretieren und Informationen aus Website-Screenshots extrahieren.
Pixtral Large wird unter zwei Lizenzen angeboten: der Mistral Research License für Forschung und Lehre sowie der Mistral Commercial License für kommerzielle Anwendungen. Der Zugriff erfolgt über die Mistral API oder per Download.
Neben Pixtral Large hat Mistral AI auch das textbasierte Modell Mistral Large aktualisiert. Die Version 24.11 verbessert das Verständnis langer Kontexte, optimiert Funktionsaufrufe und verfügt über einen verfeinerten Systemprompt.
Diese Verbesserungen zielen insbesondere auf Unternehmensanwendungen ab, darunter Wissensmanagement, Dokumentenanalyse und die Automatisierung von Kundeninteraktionen. Die Verfügbarkeit über große Cloud-Anbieter wie Google Cloud und Microsoft Azure ist geplant.
Mit der Veröffentlichung von Pixtral Large und der Aktualisierung von Mistral Large unterstreicht Mistral AI seine Ambitionen im KI-Markt. Die Kombination aus multimodalen Fähigkeiten und leistungsstarken Textmodellen positioniert das Unternehmen im Wettbewerb mit etablierten Playern. Die Open-Source-Strategie von Mistral AI und die Fokussierung auf mehrsprachige Modelle fördern die Zugänglichkeit und Anpassbarkeit der Technologie.
In Benchmarks zeigt Pixtral Large eine überlegene Performance im Vergleich zu Llama 3.2 90B. Es bleibt jedoch die Frage offen, wie sich Llama 3.2 mit zusätzlichen Parametern verhalten würde. Der Größenunterschied zwischen den Modellen (124 Milliarden Parameter bei Pixtral Large gegenüber 90 Milliarden bei Llama 3.2) ist ein wichtiger Faktor bei der Leistungsbewertung.
Bibliographie: - https://huggingface.co/mistralai/Pixtral-Large-Instruct-2411 - https://www.reddit.com/r/LocalLLaMA/comments/1gu7l8s/pixtral_large_released_vision_model_based_on/ - https://wandb.ai/byyoung3/ml-news/reports/Pixtral-Grows-Up--VmlldzoxMDIyNTc3Ng - https://analyticsindiamag.com/ai-news-updates/mistral-teases-release-of-multimodal-models-mistral-large-3-and-pixtral-large/ - https://substack.com/@bnjmnmarie/note/c-77749926? - https://x.com/btibor91/status/1858554175212450163 - https://www.buzzwoo.de/kuenstliche-intelligenz/mistral-ai - https://www.ibm.com/think/news/meta-llama-3-2-models