Llama 3: Ein neuer Meilenstein in der Entwicklung von Sprachmodellen durch Meta

Kategorien:

No items found.

Freigegeben:

June 14, 2024

In den letzten Jahren hat die künstliche Intelligenz (KI) enorme Fortschritte gemacht, die weitreichende Implikationen für Industrie, Forschung und Alltag haben. Ein Bereich, der besonders beachtliche Entwicklungen verzeichnet, ist das Feld der Sprachmodelle, die auf umfangreichen Datenmengen basieren und komplexe menschliche Sprache verstehen und generieren können. Eines der neuesten und fortschrittlichsten Modelle in diesem Bereich ist das von Meta vorgestellte Llama 3, ein Großsprachmodell, das sowohl in der Forschungsgemeinschaft als auch in der Industrie für Aufsehen sorgt.

Das Llama 3-Modell ist in Varianten mit 8 Milliarden und 70 Milliarden Parametern verfügbar und wurde mit über 15 Billionen Token trainiert. Dies stellt eine siebenfache Steigerung im Vergleich zum Vorgängermodell Llama 2 dar. Mit diesen Verbesserungen zielt Llama 3 darauf ab, bestehende Benchmarks in Bereichen wie logischem Denken, Codierung und kreativem Schreiben zu übertreffen und ein neues Maß an Effizienz und Leistungsfähigkeit zu bieten.

Meta hat angekündigt, dass neben den bereits verfügbaren 8B- und 70B-Modellen auch ein noch umfangreicheres Modell mit über 400 Milliarden Parametern in Entwicklung ist. Dieses Modell soll in naher Zukunft veröffentlicht werden und wird voraussichtlich die Leistungsfähigkeit von OpenAIs GPT-4 und Anthropics Claude 3 - Opus erreichen oder sogar übertreffen.

Die Veröffentlichung von Llama 3 markiert einen wichtigen Meilenstein in der Evolution der Sprachmodelle und verspricht, die nächste Welle der Innovation im KI-Bereich einzuleiten. Es ist geplant, dass Llama 3 auf verschiedenen Plattformen wie AWS, Databricks, Google Cloud, Hugging Face, Kaggle, IBM WatsonX, Microsoft Azure, NVIDIA NIM und Snowflake verfügbar sein wird und dass es mit Hardwareplattformen von AMD, AWS, Dell, Intel, NVIDIA und Qualcomm kompatibel sein wird.

Ein besonderer Fokus liegt auf der verantwortungsvollen Entwicklung und Implementierung von Llama 3. Meta hat angekündigt, verschiedene Ressourcen bereitzustellen, um anderen zu helfen, das Modell verantwortungsbewusst zu nutzen. Dazu gehören neue Vertrauens- und Sicherheitswerkzeuge wie Llama Guard 2, Code Shield und CyberSec Eval 2. Meta verpflichtet sich, Llama 3 auf eine Weise zu entwickeln, die die Gemeinschaft unterstützt und einen Beitrag zur Schaffung von Industriestandards leistet, die der gesamten Open-Source-Community zugutekommen.

In Bezug auf die Architektur hat sich Meta für eine relativ standardmäßige Decoder-only-Transformer-Architektur entschieden. Das Modell verwendet einen Tokenizer mit einem Vokabular von 128.000 Token, was eine effizientere Sprachcodierung ermöglicht und zu einer deutlichen Leistungssteigerung führt. Um die Effizienz des Inferenzprozesses der Llama 3-Modelle zu verbessern, wurde die gruppierte Abfrageaufmerksamkeit (GQA) sowohl in den 8B- als auch in den 70B-Modellen übernommen. Die Modelle wurden auf Sequenzen von 8192 Token trainiert, wobei eine Maske verwendet wurde, um sicherzustellen, dass die Selbstaufmerksamkeit nicht über Dokumentgrenzen hinweggeht.

Das Training von Llama 3 erfolgte auf einem umfangreichen und hochwertigen Datensatz, der aus öffentlich verfügbaren Quellen gesammelt wurde. Um die Qualität des Trainingsdatensatzes sicherzustellen, wurden verschiedene Datenfilter-Pipelines entwickelt, darunter heuristische Filter, NSFW-Filter, semantische Deduplizierungsansätze und Textklassifikatoren zur Vorhersage der Datenqualität. Llama 2 wurde verwendet, um Trainingsdaten für die Textqualitätsklassifikatoren zu generieren, die Llama 3 antreiben.

Die Entwicklung von Llama 3 umfasste auch umfangreiche Experimente zur Bewertung der besten Methoden zur Mischung von Daten aus verschiedenen Quellen im abschließenden Trainingssatz. Diese Experimente ermöglichten es, eine Datenmischung auszuwählen, die sicherstellt, dass Llama 3 in verschiedenen Anwendungsfällen wie Trivia-Fragen, STEM, Codierung und historischem Wissen gut abschneidet.

Meta hat auch die Skalierung des Pretrainings verbessert, indem detaillierte Skalierungsgesetze für Benchmark-Auswertungen entwickelt wurden. Diese Gesetze ermöglichen es, eine optimale Datenmischung auszuwählen und fundierte Entscheidungen darüber zu treffen, wie die Trainingsrechenleistung am besten genutzt werden kann. Während der Entwicklung von Llama 3 wurden neue Beobachtungen zum Skalierungsverhalten gemacht. So wurde festgestellt, dass die Leistung der Modelle mit 8B und 70B Parametern weiterhin log-linear verbessert wurde, nachdem sie mit bis zu 15 Billionen Token trainiert wurden. Größere Modelle können die Leistung dieser kleineren Modelle mit weniger Trainingsrechenleistung erreichen, aber kleinere Modelle werden im Allgemeinen bevorzugt, da sie während der Inferenz viel effizienter sind.

Um das volle Potenzial der vortrainierten Modelle in Chat-Anwendungsfällen zu erschließen, hat Meta seinen Ansatz zur Instruktionstuning innoviert. Der Ansatz zum Post-Training ist eine Kombination aus überwachtem Feintuning (SFT), Ablehnungssampling, proximaler Politikoptimierung (PPO) und direkter Politikoptimierung (DPO). Die Qualität der Aufforderungen, die im SFT verwendet werden, und die Präferenzbewertungen spielen eine entscheidende Rolle bei der Verbesserung der Ausrichtung und der Vielfalt der Modellantworten.

Meta hat auch Schritte auf Modellebene unternommen, um ein hochfähiges und sicheres Grundmodell in Llama 3 zu entwickeln. Dazu gehörte die Erweiterung des Trainingsdatensatzes für Llama 3, der siebenmal größer ist als der für Llama 2 verwendete und viermal mehr Code enthält. Über 5% des Pretrainingsdatensatzes von Llama 3 bestehen aus hochwertigen nicht-englischen Daten, die über 30 Sprachen abdecken. Das Trainingsdatensatz wurde unter Einhaltung der Datenschutzrichtlinien von Meta erstellt, und es wurden Daten aus bestimmten Quellen ausgeschlossen oder entfernt, die bekanntermaßen ein hohes Volumen an persönlichen Informationen über private Personen enthalten.

Im Zuge der Vorbereitung auf eine breitere internationale Markteinführung hat Meta Schritte unternommen, um die Sicherheit und Verantwortlichkeit zu bewerten und anzugehen. Dazu gehörten automatisierte und manuelle Evaluierungen, um die Leistung der Modelle in einer Reihe von Risikobereichen wie Waffen, Cyberangriffe und Kindesmissbrauch zu verstehen. In jedem Bereich wurde zusätzliche Arbeit geleistet, um die Wahrscheinlichkeit zu verringern, dass das Modell unerwünschte Antworten in diesen Bereichen liefert.

Meta hat auch die Transparenz des Modells verbessert, indem es eine Modellkarte veröffentlichte, die detaillierte Informationen über die Architektur, die Parameter und die vortrainierten Bewertungen von Llama 3 enthält. Die Modellkarte enthält auch Informationen über die Fähigkeiten und Einschränkungen der Modelle.

Mit der Einführung von Llama 3 und der damit verbundenen Verpflichtung, ein verantwortungsbewusstes KI-Modell zu entwickeln und bereitzustellen, zeigt Meta seine Entschlossenheit, an der Spitze der KI-Innovation zu stehen. Die potenziellen Anwendungen für Llama 3 sind vielfältig und könnten die Art und Weise, wie Menschen mit Technologie interagieren, grundlegend verändern. Es bleibt abzuwarten, wie sich die Gemeinschaft der Entwickler und die breitere Öffentlichkeit dieses leistungsfähige Werkzeug zunutze machen werden.

Quellen:
1. Meta Llama 3 Blog-Eintrag: https://ai.meta.com/blog/meta-llama-3/
2. Instagram-Update zu Llama 3: https://www.instagram.com/ainterestingupdate/p/C56aLoePI7U/
3. Meta Llama 3 und KI-Verantwortung: https://ai.meta.com/blog/meta-llama-3-meta-ai-responsibility/
4. Business Insider über die Veröffentlichung von Meta Llama 3: https://www.businessinsider.com/meta-releases-latest-ai-model-llama-3-2024-4
5. Thread-Beitrag von Nick Clegg zu Llama 3: https://www.threads.net/@nickclegg/post/C56OMAXxdTx
6. CoinGape über die Einführung von Llama 3: https://coingape.com/ai-news-meta-introduces-llama-3-touts-it-as-top-open-source-ai-model/
7. YouTube-Video zur Veröffentlichung von Llama 3: https://www.youtube.com/watch?v=LZUelNSODrw
8. VentureBeat über den Start von Llama 3: https://venturebeat.com/ai/llama-3-launches-alongside-new-stand-alone-meta-ai-chatbot/
9. Analytics India Mag über die Open-Source-Veröffentlichung von Llama 3: https://analyticsindiamag.com/meta-finally-open-sources-llama-3/

Was bedeutet das?

No items found.