Medizinische KI-Entwicklung auf AMD ROCm: Ein innovativer Ansatz ohne CUDA

Kategorien:

No items found.

Freigegeben:

May 8, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

Die Entwicklung eines medizinischen KI-Modells namens MedQA wurde auf AMD ROCm-Hardware durchgeführt, ohne auf NVIDIA CUDA angewiesen zu sein.
MedQA nutzt LoRA (Low-Rank Adaptation) zur Feinabstimmung des Qwen3-1.7B-Modells für medizinische Multiple-Choice-Fragen.
Die AMD Instinct MI300X GPU mit 192 GB HBM3-Speicher ermöglichte das Training in voller fp16-Genauigkeit ohne Quantisierung.
Das HuggingFace-Ökosystem (Transformers, PEFT, TRL, Accelerate) ist vollständig mit ROCm kompatibel, was die Portabilität des Codes gewährleistet.
Das Training des Modells auf 2.000 Stichproben des MedMCQA-Datensatzes dauerte auf der MI300X etwa 5 Minuten.
Das Modell generiert nicht nur die korrekte Antwort, sondern liefert auch eine klinische Erklärung, was die praktische Anwendbarkeit erhöht.
Herausforderungen wie NaN-Verluste und nicht erkannte GPUs wurden durch spezifische Anpassungen und Umgebungsvariablen behoben.

Feinabstimmung klinischer KI auf AMD ROCm: Eine Analyse der Technologieadoption

Die Landschaft der künstlichen Intelligenz (KI) unterliegt einem stetigen Wandel, wobei die Entwicklung von spezialisierten Modellen für kritische Anwendungsbereiche wie die Medizin von besonderer Bedeutung ist. Traditionell dominierte NVIDIA mit seiner CUDA-Plattform den Markt für GPU-beschleunigte KI-Entwicklung. Eine aktuelle Entwicklung, das Projekt MedQA, demonstriert jedoch die Machbarkeit und Effizienz der Feinabstimmung klinischer KI-Modelle auf AMD ROCm-Hardware, was eine Verschiebung in den technologischen Abhängigkeiten signalisiert.

Die Prämisse: Medizinische KI ohne CUDA-Bindung

Das MedQA-Projekt wurde mit dem Ziel ins Leben gerufen, ein klinisches Frage-Antwort-Modell vollständig auf AMD-Hardware unter Verwendung von ROCm zu entwickeln. Dies steht im Gegensatz zur gängigen Praxis in der Open-Source-Medizin-KI, die oft eine NVIDIA GPU und CUDA als Standard voraussetzt. Die Anwendungsdomäne, die Beantwortung medizinischer Fragen, ist mit hohen Anforderungen an die Genauigkeit verbunden, da fehlerhafte Antworten potenzielle Risiken im klinischen Kontext bergen könnten.

Das entwickelte MedQA-Modell ist darauf ausgelegt, Multiple-Choice-Fragen aus dem medizinischen Bereich zu beantworten und zusätzlich eine klinische Begründung für die gewählte Antwort zu liefern. Die gesamte Trainingspipeline, von der Datenladung bis zum Export des Adapters, wurde auf einer AMD Instinct MI300X GPU realisiert, ohne eine einzige CUDA-Abhängigkeit.

Technologische Grundlage: AMD ROCm und das HuggingFace-Ökosystem

Die Wahl der AMD Instinct MI300X GPU als Hardware-Basis war strategisch. Mit 192 GB HBM3-Speicher bietet diese GPU eine hohe VRAM-Kapazität, die oft eine limitierende Größe bei der Feinabstimmung großer Sprachmodelle (LLMs) darstellt. Diese Speicherkapazität ermöglichte das Training des Qwen3-1.7B-Modells mit LoRA in voller fp16-Genauigkeit, wodurch auf 4-Bit- oder 8-Bit-Quantisierung verzichtet werden konnte. Dies trägt potenziell zu einer höheren Modellgenauigkeit bei, da keine Quantisierungsartefakte eingeführt werden.

Ein zentrales Ergebnis des Projekts ist der Nachweis, dass das HuggingFace-Ökosystem, welches Bibliotheken wie Transformers, PEFT, TRL und Accelerate umfasst, nahtlos auf ROCm funktioniert. Dies bedeutet, dass bestehender Trainingscode, der für CUDA entwickelt wurde, mit minimalen Anpassungen (hauptsächlich dem Setzen von drei Umgebungsvariablen) auf ROCm ausgeführt werden kann. Diese Kompatibilität ist ein wichtiger Faktor für die breitere Akzeptanz von AMD-Hardware in der KI-Forschung und -Entwicklung.

Datengrundlage und Modellarchitektur

Als Datensatz für die Feinabstimmung diente MedMCQA, ein umfangreicher Multiple-Choice-Fragedatensatz, der aus indischen medizinischen Aufnahmeprüfungen abgeleitet wurde. Jedes Beispiel im Datensatz enthält eine klinische Frage, vier Antwortoptionen, den Index der korrekten Antwort und optional eine Freitext-Erklärung. Für das Projekt wurden 2.000 Trainingsbeispiele verwendet, eine bewusst kleine Stichprobe, um die schnelle Erzielung sinnvoller Feinabstimmungsergebnisse zu demonstrieren. Das Training dieser Stichprobe auf der MI300X dauerte etwa 5 Minuten.

Das Basismmodell war Qwen/Qwen3-1.7B, ein von Alibaba entwickeltes Sprachmodell mit 1,7 Milliarden Parametern. Die Größe des Modells wurde als ausreichend kompakt für eine kostengünstige Feinabstimmung und gleichzeitig leistungsfähig genug für kohärente klinische Schlussfolgerungen bewertet.

Feinabstimmung mit LoRA

Anstatt alle 1,5 Milliarden Parameter des Modells anzupassen, wurde LoRA (Low-Rank Adaptation) über die PEFT-Bibliothek eingesetzt. LoRA führt kleine trainierbare Rang-Zerlegungsmatrizen in die Aufmerksamkeits-Layer ein, während die Basisgewichte eingefroren bleiben. Diese Methode reduziert die Anzahl der trainierbaren Parameter erheblich auf etwa 2,2 Millionen, was nur 0,1443 % der Gesamtparameter entspricht. Dies führt zu einem geringeren Speicherverbrauch und schnelleren Trainingszeiten.

Die Trainingsargumente umfassten Einstellungen für die Anzahl der Epochen, Batch-Größe, Lernrate und die Verwendung von fp16 anstelle von bfloat16, um Stabilitätsprobleme zu vermeiden. Gradient Checkpointing wurde aktiviert, um Rechenleistung gegen Speicher zu tauschen, eine bewährte Methode, auch wenn sie bei der MI300X mit ihrer hohen VRAM-Kapazität nicht zwingend erforderlich war.

Inferenz und Modellfunktionalität

Für die Inferenz wird das Basismmodell geladen, der LoRA-Adapter angehängt und optional die Gewichte zusammengeführt. Die Generierung der Antworten erfolgt mittels Greedy Decoding mit einer Wiederholungsstrafe, um Schleifen in der Textausgabe zu verhindern. Ein Beispiel zeigt, wie das Modell nicht nur die richtige Antwortbuchstaben liefert, sondern auch eine detaillierte klinische Erklärung, was den praktischen Nutzen in medizinischen Anwendungen erhöht.

Herausforderungen und Lösungsansätze

Während der Implementierung traten verschiedene Herausforderungen auf, die spezifische Anpassungen erforderten:

NaN-Verluste: Instabilität bei gemischter Präzision wurde durch den Wechsel von bfloat16 zu fp16 behoben.
GPU-Erkennung: Fehlende ROCm-Umgebungsvariablen wurden durch das Setzen von ROCR_VISIBLE_DEVICES, HIP_VISIBLE_DEVICES und HSA_OVERRIDE_GFX_VERSION adressiert.
bitsandbytes-Unterstützung: Da keine ROCm-Builds von bitsandbytes verfügbar waren, wurde auf Quantisierung verzichtet, was durch den großen VRAM der MI300X ermöglicht wurde.
Inferenz-Ausgabe: Fehlerhafte Tokenizer-Padding-Konfigurationen wurden durch die Einstellung von pad_token = eos_token und die Korrektur von padding_side behoben.
Trainer-Evaluierungsfehler: Diskrepanzen in den Transformers-Versionen wurden durch das Festlegen von transformers>=4.40.0 gelöst.

Die Tatsache, dass auf dem MI300X mit 192 GB HBM3-Speicher auf 4-Bit-Quantisierung verzichtet werden konnte, die auf NVIDIA-Hardware oft notwendig ist, wird als signifikanter Hardware-Vorteil hervorgehoben, der ein saubereres Training ohne Quantisierungsartefakte ermöglicht.

Ausblick und zukünftige Schritte

Das MedQA-Projekt validiert die Funktionsfähigkeit der Pipeline für medizinische KI auf AMD ROCm-Hardware. Zukünftige Entwicklungen könnten die Verwendung größerer Datensätze, wie den vollständigen MedMCQA-Korpus und PubMedQA, die Implementierung von Konfidenzwerten für Antworten, die Integration von Retrieval-Augmented Generation (RAG) zur Verankerung von Antworten in medizinischer Literatur sowie die Entwicklung eines umfassenden Evaluierungsrahmens umfassen.

Fazit für B2B-Entscheider

Die Ergebnisse des MedQA-Projekts demonstrieren, dass der Aufbau leistungsfähiger und erklärbarer medizinischer KI-Modelle auf Open-Source-AMD-Hardware nicht nur möglich, sondern auch unkompliziert ist. Die Kompatibilität des HuggingFace-Ökosystems mit ROCm und die Speicherkapazität der AMD MI300X GPUs eliminieren bestimmte ingenieurtechnische Herausforderungen, die in Umgebungen mit begrenztem VRAM auftreten können. Für Unternehmen im B2B-Bereich, die an der Entwicklung oder Implementierung von KI-Lösungen im Gesundheitswesen interessiert sind, bietet dies eine alternative, potenziell kosteneffizientere und technologisch unabhängige Entwicklungsplattform. Die Betonung der Erklärbarkeit von KI-Modellen, wie sie bei MedQA durch die Bereitstellung klinischer Begründungen erfolgt, ist ein entscheidender Faktor für die Akzeptanz und den Einsatz von KI in sensiblen Bereichen wie der Medizin.

Bibliographie

HuggingFace Blog. (2026, 8. Mai). MedQA: Fine-Tuning a Clinical AI on AMD ROCm — No CUDA Required. Abrufbar unter: https://huggingface.co/blog/lablab-ai-amd-developer-hackathon/medqa
AMD ROCm Documentation. (2026, 23. Januar). Use ROCm for fine-tuning LLMs. Abrufbar unter: https://rocm.docs.amd.com/en/latest/how-to/rocm-for-ai/fine-tuning/index.html
AMD ROCm Documentation. (2025, 19. Dezember). Conceptual overview of fine-tuning LLMs. Abrufbar unter: https://rocm.docs.amd.com/en/latest/how-to/rocm-for-ai/fine-tuning/overview.html
AMD ROCm Documentation. (2026, 5. Januar). Fine-tuning and inference using a single GPU. Abrufbar unter: https://rocm.docs.amd.com/en/docs-7.2.1/how-to/rocm-for-ai/fine-tuning/single-gpu-fine-tuning-and-inference.html
Vals AI. (2026, 16. April). MedQA - Vals AI. Abrufbar unter: https://www.vals.ai/benchmarks/medqa
ArXiv. (Veröffentlichungsdatum nicht angegeben). LLM-MedQA: Enhancing Medical Question Answering through Case Studies in Large Language Models. Abrufbar unter: https://arxiv.org/html/2501.05464v1
AMD ROCm Documentation. (2026, 26. Januar). MONAI for AMD ROCm documentation. Abrufbar unter: https://rocm.docs.amd.com/projects/monai/en/latest/
AMD ROCm Blogs. (2024, 1. Februar). Fine-tune Llama model with LoRA: Customizing a large language model for question-answering. Abrufbar unter: https://rocm.blogs.amd.com/artificial-intelligence/llama-lora/README.html