Die Zukunft der Thoraxdiagnostik: Künstliche Intelligenz in der Interpretation von Röntgenbildern

Kategorien:
No items found.
Freigegeben:

Röntgenaufnahmen des Brustkorbs, kurz als Röntgen-Thorax bekannt, zählen zu den am häufigsten durchgeführten bildgebenden Verfahren in der klinischen Praxis. Sie sind ein unerlässliches Werkzeug zur Diagnose und Überwachung zahlreicher Erkrankungen der Brustorgane, insbesondere der Lunge. Trotz ihrer weiten Verbreitung und Bedeutung ist die Interpretation von Röntgen-Thorax-Bildern nicht ohne Herausforderungen: Sie erfordert spezialisiertes Fachwissen, Erfahrung und oft auch viel Zeit. Fehlinterpretationen können zu Fehldiagnosen führen, was die Patientenversorgung beeinträchtigen kann. In diesem Zusammenhang verspricht die Entwicklung von sogenannten Foundation Models (FMs), also grundlegenden Modellen, welche mithilfe von künstlicher Intelligenz (KI) die Interpretation von Röntgen-Thorax-Bildern automatisieren, einen bedeutenden Fortschritt.

Neuere Fortschritte in der Entwicklung von vision-language foundation models, also Grundmodellen, die Sehen und Sprache verbinden, eröffnen die Möglichkeit, automatisierte Interpretationen von Röntgen-Thorax-Bildern durchzuführen. Solche Systeme könnten Ärzte bei der klinischen Entscheidungsfindung unterstützen und so zu einer verbesserten Patientenversorgung beitragen. Die Entwicklung solcher Modelle, die Röntgen-Thorax-Aufnahmen genau interpretieren können, ist jedoch aufgrund mehrerer Faktoren eine Herausforderung. Dazu gehören die begrenzte Verfügbarkeit großer vision-language Datensätze im Bereich der medizinischen Bildgebung, das Fehlen von Encodern für Sehen und Sprache, die die Komplexität medizinischer Daten erfassen können, und der Mangel an Bewertungsrahmenwerken zur Beurteilung der Fähigkeiten von FMs bei der Interpretation von Röntgen-Thorax-Bildern.

Eine Bewältigung dieser Herausforderungen wurde kürzlich in einem Forschungsprojekt vorgestellt, bei dem ein groß angelegtes Dataset für das sogenannte Instruction-Tuning, benannt als CheXinstruct, aus 28 öffentlich verfügbaren Datensätzen kuratiert wurde. Darauf aufbauend wurde CheXagent präsentiert – ein auf Anweisungen abgestimmtes FM, das in der Lage ist, Röntgen-Thorax-Bilder zu analysieren und zusammenzufassen. Für den Aufbau von CheXagent wurden ein klinisches großes Sprachmodell (LLM) für die Interpretation von Radiologieberichten, ein Bildencoder zur Darstellung von Röntgen-Thorax-Bildern und ein Netzwerk entwickelt, um die Seh- und Sprachmodalitäten zu verbinden.

Zur systematischen Bewertung der FMs wurde zudem CheXbench eingeführt – ein neues Benchmarking-Tool, das darauf ausgelegt ist, FMs in acht klinisch relevanten Aufgaben zur Interpretation von Röntgen-Thorax-Bildern zu evaluieren. Umfangreiche quantitative Bewertungen und qualitative Überprüfungen durch fünf Expertenradiologen haben gezeigt, dass CheXagent besser abschneidet als zuvor entwickelte allgemeine und medizinische FMs in den CheXbench-Aufgaben. Darüber hinaus wurde im Rahmen der Bemühungen um mehr Transparenz bei Modellen eine Fairnessbewertung durchgeführt, die potenzielle Leistungsunterschiede in Bezug auf Geschlecht, Rasse und Alter aufzeigt.

In einem weiteren Forschungsvorhaben, RoentGen genannt, wurde ein Ansatz entwickelt, um die große Verteilungsverschiebung zwischen natürlichen Bildern und medizinischen Bildern zu überwinden, indem ein vortrainiertes latentes Diffusionsmodell auf einem Korpus von öffentlich verfügbaren Röntgen-Thorax-Aufnahmen und den zugehörigen Radiologieberichten angepasst wurde. Das Modell zeigte die Fähigkeit, hochwertige, vielfältige synthetische Röntgen-Thorax-Bilder zu generieren, die auf Textaufforderungen basieren. Die Modellergebnisse wurden quantitativ mit Bildqualitätsmetriken bewertet und von Experten in Bezug auf Bildqualität und Text-Bild-Übereinstimmung evaluiert. Die Ergebnisse deuten darauf hin, dass RoentGen überzeugende synthetische Röntgen-Thorax-Bilder erstellen kann, die durch freiformulierte Textaufforderungen gesteuert werden können.

Ein anderer Ansatz, Knowledge-enhanced Auto Diagnosis (KAD), nutzt bestehendes medizinisches Domänenwissen, um das Pre-Training von vision-language Modellen mit gepaarten Röntgen-Thorax-Bildern und Radiologieberichten zu leiten. KAD wurde anhand von vier externen Röntgen-Datensätzen bewertet und zeigte, dass seine Zero-Shot-Performance nicht nur mit vollständig überwachten Modellen vergleichbar ist, sondern auch überlegen gegenüber dem Durchschnitt von drei Expertenradiologen für drei Pathologien. Darüber hinaus zeigte KAD überlegenere Ergebnisse in Fine-Tuning-Einstellungen, wenn wenige Annotationsbeispiele verfügbar sind, was sein Potenzial für die Anwendung in verschiedenen klinischen Szenarien zeigt.

Zusammenfassend lässt sich sagen, dass die Entwicklung und Anwendung von KI in der medizinischen Bildgebung, insbesondere bei der Interpretation von Röntgen-Thorax-Bildern, zunehmend Fortschritte macht. Ansätze wie CheXagent, RoentGen und KAD demonstrieren das Potenzial solcher Systeme, die Diagnosegenauigkeit zu verbessern und die Arbeitsabläufe in der Radiologie effizienter zu gestalten. Trotz der vielversprechenden Ergebnisse müssen jedoch kritische Aspekte wie Modelltransparenz, Fairness und Generalisierbarkeit weiterhin gründlich evaluiert werden, um die Sicherheit und Wirksamkeit dieser Technologien für alle Patienten zu gewährleisten.

Was bedeutet das?
No items found.