Microsoft präsentiert Phi 3.5: Fortschritte und Neuerungen in der Künstlichen Intelligenz

Kategorien:

No items found.

Freigegeben:

August 27, 2024

Microsoft's Phi 3.5 Modelle: Ein Neuer Meilenstein in der KI

Einführung der neuen Phi 3.5 Modelle: Microsoft setzt neue Maßstäbe in der KI

Microsoft hat kürzlich die neueste Generation seiner Phi-KI-Modelle vorgestellt: Phi-3.5. Diese neue Serie umfasst drei Modelle: Phi-3.5-mini-instruct, Phi-3.5-MoE-instruct und Phi-3.5-vision-instruct. Diese Modelle bieten verbesserte Fähigkeiten im Bereich Sprachverarbeitung und Bildanalyse und sind nun unter der MIT-Lizenz auf der Plattform Hugging Face verfügbar.

Überblick über die neuen Modelle

Jedes der neuen Phi-3.5-Modelle wurde für spezifische Anwendungsfälle entwickelt:

Phi-3.5-mini-instruct

Das Phi-3.5-mini-instruct Modell ist ein leichtgewichtiges KI-Modell mit 3,8 Milliarden Parametern. Es ist besonders geeignet für Umgebungen mit begrenzten Ressourcen und Szenarien, die schnelle und präzise logische Schlussfolgerungen erfordern. Trotz seiner geringen Größe zeigt das Modell in Benchmarks eine beeindruckende Leistung, insbesondere bei mehrsprachigen Aufgaben.

Phi-3.5-MoE-instruct

Das Phi-3.5-MoE-instruct Modell verfügt über 16 Experten, von denen jeder 3,8 Milliarden Parameter hat, was insgesamt 60,8 Milliarden Parameter ergibt. Allerdings sind nur 6,6 Milliarden Parameter aktiv, wenn zwei Experten verwendet werden. Dies ermöglicht es dem Modell, größere Modelle in Sprachverständnis und mathematischen Aufgaben zu übertreffen.

Phi-3.5-vision-instruct

Das Phi-3.5-vision-instruct Modell ist ein multimodales System mit 4,2 Milliarden Parametern, das sowohl Text als auch Bilder verarbeiten kann. Es eignet sich für Aufgaben wie die Bildverarbeitung, OCR (Optical Character Recognition) und Diagrammverständnis. Das Modell übertrifft ähnlich große Modelle in Benchmarks und konkurriert mit größeren Modellen in der Verarbeitung von mehreren Bildern und Videos.

Technische Details und Training

Alle Phi-3.5-Modelle unterstützen eine Kontextlänge von bis zu 128.000 Token, was sie für lange Dokumentzusammenfassungen und mehrsprachige Kontextabfragen nützlich macht. Diese Modelle wurden auf hochwertigen, gefilterten Daten trainiert, darunter auch synthetische, „lehrbuchartige“ Daten, die für das Lehren von Mathematik, Kodierung, allgemeinem Wissen und logischem Denken erstellt wurden.

Die Trainingsdaten umfassten:

- Phi-3.5-mini-instruct: 3,4 Billionen Token, trainiert mit 512 H100-80G GPUs über 10 Tage. - Phi-3.5-MoE-instruct: 4,9 Billionen Token, trainiert mit 512 H100-80G GPUs über 23 Tage. - Phi-3.5-vision-instruct: 500 Milliarden Token, trainiert mit 256 A100-80G GPUs über 6 Tage.

Leistung und Benchmarks

Die neuen Phi-3.5-Modelle zeigen in verschiedenen Benchmarks beeindruckende Leistungen. Sie übertreffen in vielen Fällen sogar größere Modelle wie Meta's Llama 3.1 und Google's Gemini 1.5 Flash. Besonders hervorzuheben ist die Leistung des Phi-3.5-MoE-instruct Modells bei mehrsprachigen und mathematischen Aufgaben, wo es sogar OpenAI's GPT-4o-mini in bestimmten Benchmarks übertrifft.

Anwendungsbereiche und Verfügbarkeit

Die Phi-3.5-Modelle sind ideal für verschiedene kommerzielle und wissenschaftliche Anwendungen:

- Szenarien mit begrenzten Ressourcen - Zeitkritische Anwendungen - Aufgaben, die starke logische Schlussfolgerungen erfordern

Alle Modelle sind unter der MIT-Lizenz auf Hugging Face und über Microsofts Azure AI Studio verfügbar. Sie erfordern spezialisierte GPU-Hardware wie NVIDIA A100, A6000 oder H100, um die Flash-Attention-Unterstützung zu ermöglichen.

Microsoft empfiehlt, die Phi-3.5-Modelle mit einer Suchmethode wie RAG (Retrieval-Augmented Generation) zu kombinieren, um die Schwächen in der faktischen Genauigkeit zu kompensieren. Diese Modelle können auch voreingenommene oder offensive Inhalte generieren, was bei der Implementierung in sensiblen Kontexten berücksichtigt werden sollte.

Fazit

Mit der Einführung der Phi-3.5-Modelle setzt Microsoft neue Maßstäbe in der KI-Entwicklung. Durch die Bereitstellung dieser leistungsstarken Modelle unter einer offenen Lizenz ermöglicht Microsoft Entwicklern, moderne KI-Fähigkeiten in ihre Anwendungen zu integrieren und Innovationen in verschiedenen Branchen zu fördern.

Quellen

- https://venturebeat.com/ai/microsoft-releases-powerful-new-phi-3-5-models-beating-google-openai-and-more/ - https://huggingface.co/microsoft/Phi-3.5-vision-instruct - https://azure.microsoft.com/en-us/blog/new-models-added-to-the-phi-3-family-available-on-microsoft-azure/ - https://www.infoworld.com/article/3489654/microsofts-new-phi-3-5-llm-models-surpass-meta-and-google.html - https://www.maginative.com/article/microsoft-unveils-phi-3-5-powerful-ai-models-punch-above-their-weight/ - https://www.gadgets360.com/ai/news/microsoft-phi-3-5-ai-models-moe-instruct-open-source-gemini-flash-gpt-4o-mini-6383896 - https://news.microsoft.com/source/features/ai/the-phi-3-small-language-models-with-big-potential/ - https://huggingface.co/microsoft/Phi-3.5-mini-instruct - https://www.reddit.com/r/LocalLLaMA/comments/1ex45m2/phi35_has_been_released/ - https://analyticsindiamag.com/ai-news-updates/microsoft-launches-new-phi-3-5-models-outperforms-google-gemini-1-5-flash-metas-llama-3-1-and-openais-gpt-4o/

Was bedeutet das?