DBRX: Ein Meilenstein in der Künstlichen Intelligenz mit Expertenvielfalt

Kategorien:

No items found.

Freigegeben:

June 14, 2024

Artikel jetzt als Podcast anhören

In der sich ständig weiterentwickelnden Welt der künstlichen Intelligenz (KI) sind Innovationen und Fortschritte alltäglich. Eine dieser Neuerungen ist DBRX, ein großes Sprachmodell auf Basis der Mixture-of-Experts-Architektur (MoE), das von Databricks von Grund auf neu entwickelt wurde. Dieses Modell repräsentiert einen bedeutenden Fortschritt in der KI-Technologie, sowohl in Bezug auf Leistung als auch Effizienz.

DBRX unterscheidet sich von anderen MoE-Modellen wie Mixtral und Grok-1 durch seine Feingliedrigkeit. Während Mixtral und Grok-1 jeweils acht Experten haben und zwei auswählen, verfügt DBRX über 16 Experten und wählt daraus vier aus. Diese Architektur ermöglicht es DBRX, 65-mal mehr mögliche Kombinationen von Experten zu nutzen, was die Modellqualität erheblich verbessert.

Die Basisversion von DBRX, bekannt als DBRX Base, ist ein Transformer-basiertes Decoder-Only-Modell, das für die Vorhersage des nächsten Tokens trainiert wurde. Es verwendet rotary position encodings (RoPE), gated linear units (GLU) und grouped query attention (GQA) und profitiert vom GPT-4-Tokenisierer aus dem tiktoken-Repository. Diese Entscheidungen wurden auf der Grundlage umfassender Evaluierungs- und Skalierungsexperimente getroffen.

DBRX wurde auf einem Datensatz trainiert, der 12 Billionen Tokens umfasst und eine maximale Kontextlänge von 32.000 Tokens zulässt. Es wird geschätzt, dass diese Daten tokenbezogen mindestens doppelt so wertvoll sind wie die Daten, die für das Training der MPT-Modellfamilie verwendet wurden. Die Daten wurden mit dem vollständigen Satz von Databricks-Tools entwickelt, einschließlich Apache Spark™ und Databricks-Notebooks für die Datenverarbeitung sowie Unity Catalog für das Datenmanagement und die Governance.

Die Modelle von DBRX sind sowohl für die kommerzielle als auch für die Forschungsnutzung gedacht und lizenziert und können für verschiedene domänenspezifische Aufgaben im Bereich der natürlichen Sprache und des Codierens weiter verfeinert werden. DBRX Base kann als schlüsselfertiges Modell für Textergänzungsaufgaben in englischer Sprache und für Codierungsaufgaben verwendet werden.

Die Entwicklung von DBRX wurde durch die Infrastruktur von Databricks für die Datenverarbeitung und das Training von großen Sprachmodellen (Large Language Models, LLMs) maßgeblich unterstützt. Zu den unterstützenden Technologien gehören Composer für das optimierte Training, Streaming für schnelles und skalierbares Training großer Datensätze aus der Cloud, Megablocks für MoE-Training und LLM Foundry, die all diese Bibliotheken für ein einfaches LLM-Pretraining, Feintuning und Inferenzerlebnis zusammenbringt.

Die Bewertung von DBRX hat gezeigt, dass es etablierte Open-Source- und Open-Weight-Basismodelle auf dem Databricks Model Gauntlet, der Hugging Face Open LLM Leaderboard und HumanEval übertrifft. Der Databricks Model Gauntlet misst die Leistung in mehr als 30 Aufgaben in sechs Kategorien: Weltwissen, gesunder Menschenverstand, Sprachverständnis, Leseverständnis, symbolische Problemlösung und Programmierung. Die Hugging Face Open LLM Leaderboard misst den Durchschnitt von ARC-Challenge, HellaSwag, MMLU, TruthfulQA, Winogrande und GSM8k. HumanEval misst die Fähigkeit zur Codierung.

Gradio ist eine weitere bedeutende Entwicklung im Bereich der KI, die es ermöglicht, maschinelle Lernmodelle schnell und unkompliziert mit einer benutzerfreundlichen Web-Oberfläche zu demonstrieren. Gradio kann in Python-Notebooks eingebettet oder als Webseite präsentiert werden und ermöglicht es, maschinelle Lernmodelle auf einfache Weise zu teilen und zu nutzen.

Die Kombination von fortschrittlichen Modellen wie DBRX und benutzerfreundlichen Tools wie Gradio zeigt das Potenzial der KI, Zugänglichkeit und Effizienz für ein breites Publikum zu verbessern. Während sich die KI-Technologie weiterentwickelt, bleiben die ethischen Überlegungen und die Notwendigkeit einer sorgfältigen Bewertung bestehen, um sicherzustellen, dass die Ergebnisse genau und angemessen für den beabsichtigten Anwendungsfall sind.

Bibliographie:
- Hugging Face: DBRX Base Model Repository
- Gradio: Build & Share Delightful Machine Learning Apps
- Databricks: Technical Blog Post about DBRX Models
- Databricks: Privacy Notice and Terms of Use
- Databricks: DBRX Open Model License and Acceptable Use Policy

Was bedeutet das?

Wie können wir Ihnen heute helfen?

Das Expertenteam von Mindverse freut sich darauf, Ihnen zu helfen.

No items found.