Microsoft präsentiert Phi-3.5: Neue Generation von KI-Modellen für Sprach- und Bildverarbeitung

Kategorien:

No items found.

Freigegeben:

August 27, 2024

Microsoft stellt neue Phi-3.5-Modelle vor: Fortschrittliche KI-Modelle für Sprache und Bildverarbeitung

Microsoft hat kürzlich die neueste Generation seiner Phi-Modelle veröffentlicht: Phi-3.5. Diese Modelle umfassen Phi-3.5-mini-instruct, Phi-3.5-MoE-instruct und Phi-3.5-vision-instruct und versprechen bedeutende Fortschritte in den Bereichen Sprach- und Bildverarbeitung. Alle drei Modelle sind Open Source und stehen auf der Plattform Hugging Face unter der MIT-Lizenz zur Verfügung.

Die neuen Phi-3.5-Modelle im Überblick

Phiphi-3.5-mini-instruct

Das Phi-3.5-mini-instruct-Modell ist ein leichtgewichtiges KI-Modell mit 3,8 Milliarden Parametern, das für Umgebungen mit begrenzten Ressourcen optimiert ist. Es unterstützt eine Kontextlänge von bis zu 128.000 Tokens und zeigt beeindruckende Leistungen in mehrsprachigen Aufgaben.

Dieses Modell wurde speziell für Szenarien entwickelt, die starke logische Fähigkeiten erfordern, aber nur begrenzte Rechenressourcen zur Verfügung haben. Es eignet sich hervorragend für Aufgaben wie die Generierung von Code, mathematische Problemlösungen und logikbasierte Schlussfolgerungen.

Phiphi-3.5-MoE-instruct

Das Phi-3.5-MoE-instruct-Modell verfügt über 16 Experten, von denen jeder 3,8 Milliarden Parameter enthält, was insgesamt 60,8 Milliarden ergibt. Bei der Nutzung von zwei Experten sind jedoch nur 6,6 Milliarden Parameter aktiv, was ausreicht, um größere Modelle in Sprachverständnis und Mathematik zu übertreffen.

Dieses Modell ist für anspruchsvolle Anwendungen konzipiert, die starke Rechenleistung und umfangreiche Sprachfähigkeiten erfordern. Es zeigt herausragende Leistungen in verschiedenen Benchmark-Tests und übertrifft viele größere Modelle in bestimmten Aufgaben.

Phiphi-3.5-vision-instruct

Das Phi-3.5-vision-instruct-Modell ist ein multimodales System mit 4,2 Milliarden Parametern, das sowohl Text- als auch Bildverarbeitung unterstützt. Es eignet sich für Aufgaben wie Bildverständnis, optische Zeichenerkennung (OCR) und Diagrammverständnis. In Benchmark-Tests übertrifft es ähnlich große Modelle und konkurriert mit größeren Modellen in der Verarbeitung mehrerer Bilder und der Videosummarization.

Technische Details und Trainingsprozess

Alle Phi-3.5-Modelle unterstützen eine Kontextlänge von bis zu 128.000 Tokens. Dies ermöglicht es ihnen, lange Dokumente zusammenzufassen und mehrsprachige Kontexte effizient zu verarbeiten. Sie übertreffen hierbei Googles Gemma 2-Modelle, die auf 8.000 Tokens beschränkt sind.

Das Phi-3.5-mini-instruct-Modell wurde auf 3,4 Billionen Tokens unter Verwendung von 512 H100-80G GPUs über 10 Tage hinweg trainiert, während das Vision-Instruct-Modell auf 500 Milliarden Tokens unter Verwendung von 256 A100-80G GPUs über 6 Tage trainiert wurde. Das Phi-3.5-MoE-Modell, das eine Mischung aus Expertenarchitektur verwendet, wurde auf 4,9 Billionen Tokens mit 512 H100-80G GPUs über 23 Tage hinweg trainiert.

Verfügbarkeit und Lizenzierung

Alle drei Phi-3.5-Modelle sind unter der MIT-Lizenz verfügbar, was Microsofts Engagement für die Unterstützung der Open-Source-Community widerspiegelt. Diese Lizenz ermöglicht Entwicklern die freie Nutzung, Modifikation, Veröffentlichung und den Verkauf von Kopien der Software.

Die Modelle setzen spezialisierte GPU-Hardware wie NVIDIA A100, A6000 oder H100 voraus, um Flash Attention zu unterstützen. Sie können auf Hugging Face heruntergeladen und in Microsofts Azure AI Studio genutzt werden.

Anwendungsfälle und Einschränkungen

Die neuen Phi-Modelle sind ideal für kommerzielle und wissenschaftliche Anwendungen, die starke logische Fähigkeiten innerhalb der Möglichkeiten eines Sprachmodells erfordern. Sie sind besonders nützlich in Umgebungen mit begrenzten Ressourcen und zeitkritischen Szenarien.

Microsoft hat jedoch darauf hingewiesen, dass die geringe Größe der Modelle ihre faktischen Kenntnisse einschränkt und zu höheren Ungenauigkeiten führen kann. Es wird empfohlen, Phi-3.5-Modelle mit einer Suchmethode wie RAG zu kombinieren, um diese Schwäche zu kompensieren.

Wie andere Sprachmodelle können auch Phi-Modelle voreingenommene oder beleidigende Inhalte erzeugen. Sie lehnen unerwünschte Inhalte auf Englisch ab, selbst wenn sie in anderen Sprachen aufgefordert werden, sind jedoch anfälliger für komplexe Prompt-Injektionstechniken in mehreren Sprachen.

Fazit

Microsofts Veröffentlichung der Phi-3.5-Serie stellt einen bedeutenden Fortschritt in der Entwicklung mehrsprachiger und multimodaler KI dar. Durch die Bereitstellung dieser Modelle unter einer Open-Source-Lizenz ermöglicht Microsoft Entwicklern die Integration modernster KI-Fähigkeiten in ihre Anwendungen und fördert so Innovationen in kommerziellen und wissenschaftlichen Bereichen.

Bibliographie

- https://venturebeat.com/ai/microsoft-releases-powerful-new-phi-3-5-models-beating-google-openai-and-more/ - https://huggingface.co/microsoft/Phi-3.5-vision-instruct - https://azure.microsoft.com/en-us/blog/new-models-added-to-the-phi-3-family-available-on-microsoft-azure/ - https://www.infoworld.com/article/3489654/microsofts-new-phi-3-5-llm-models-surpass-meta-and-google.html - https://www.maginative.com/article/microsoft-unveils-phi-3-5-powerful-ai-models-punch-above-their-weight/ - https://www.gadgets360.com/ai/news/microsoft-phi-3-5-ai-models-moe-instruct-open-source-gemini-flash-gpt-4o-mini-6383896 - https://news.microsoft.com/source/features/ai/the-phi-3-small-language-models-with-big-potential/ - https://huggingface.co/microsoft/Phi-3.5-mini-instruct - https://www.reddit.com/r/LocalLLaMA/comments/1ex45m2/phi35_has_been_released/ - https://analyticsindiamag.com/ai-news-updates/microsoft-launches-new-phi-3-5-models-outperforms-google-gemini-1-5-flash-metas-llama-3-1-and-openais-gpt-4o/

Was bedeutet das?