M3SciQA: Neuer Benchmark für die Evaluierung von KI-Modellen in der wissenschaftlichen Forschung

Kategorien:

No items found.

Freigegeben:

November 11, 2024

Artikel jetzt als Podcast anhören

Ein neuer Maßstab für KI im wissenschaftlichen Kontext: M3SciQA

Die Welt der wissenschaftlichen Forschung ist komplex. Wissenschaftler müssen nicht nur Texte verstehen, sondern auch Diagramme, Tabellen und andere nicht-textuelle Daten interpretieren und Informationen aus verschiedenen Dokumenten verknüpfen. Die Evaluierung von KI-Modellen, insbesondere von großen Sprachmodellen (LLMs) und multimodalen Modellen (LMMs), konzentrierte sich bisher meist auf Einzeldokumente und rein textbasierte Aufgaben. Dieser Ansatz wird der Realität wissenschaftlicher Arbeitsprozesse nicht gerecht. Um diese Lücke zu schließen, wurde M3SciQA entwickelt, ein neuer Benchmark, der die Fähigkeiten von KI-Modellen im Umgang mit multimodalen und multidokumentalen wissenschaftlichen Informationen umfassender bewertet.

M3SciQA: Aufbau und Funktionsweise

M3SciQA besteht aus 1.452 von Experten annotierten Fragen, die sich auf 70 Cluster von wissenschaftlichen Publikationen aus dem Bereich der Natural Language Processing (NLP) beziehen. Jeder Cluster repräsentiert eine Ankerpublikation und alle von ihr zitierten Dokumente. Dieser Aufbau spiegelt den typischen Arbeitsablauf eines Wissenschaftlers wider, der sich mit einem Thema auseinandersetzt und dazu die relevanten Quellen heranzieht.

Die Fragen in M3SciQA sind in drei Kategorien unterteilt:

Visuell kontextbezogene Fragen: Diese Fragen beziehen sich auf Abbildungen oder Tabellen in der Ankerpublikation. Die Antwort verweist auf ein zitiertes Dokument, das den visuellen Inhalt näher erläutert.

Referenzbasierte Fragen: Diese Fragen beziehen sich auf spezifische Details in den zitierten Dokumenten.

Kombinierte Fragen: Hier werden visuell kontextbezogene und referenzbasierte Fragen kombiniert, um die Fähigkeit der KI-Modelle zu prüfen, Informationen aus verschiedenen Quellen und Modalitäten zu integrieren.

Die Fragen wurden mithilfe von Experten und GPT-4 erstellt. Die Experten formulierten die visuell kontextbezogenen Fragen und identifizierten die relevanten Referenzen. GPT-4 generierte die referenzbasierten Fragen und kombinierte sie mit den visuell kontextbezogenen Fragen. Die endgültigen Fragen wurden von Experten auf ihre Qualität überprüft.

Evaluierung aktueller KI-Modelle mit M3SciQA

Mit M3SciQA wurden 18 verschiedene KI-Modelle, darunter sowohl Open-Source- als auch proprietäre LLMs und LMMs, evaluiert. Die Ergebnisse zeigen, dass aktuelle Modelle im Vergleich zu menschlichen Experten noch erhebliche Schwächen aufweisen. Insbesondere bei der Interpretation wissenschaftlicher Abbildungen und der darauf basierenden Auswahl relevanter Dokumente zeigen sich deutliche Leistungsunterschiede. Auch das Extrahieren und Analysieren von Informationen über mehrere Dokumente hinweg stellt eine Herausforderung für die getesteten Modelle dar.

Ausblick und Bedeutung von M3SciQA

M3SciQA bietet eine wichtige Grundlage für die Weiterentwicklung von KI-Modellen im wissenschaftlichen Kontext. Der Benchmark ermöglicht eine realistischere Evaluierung der Fähigkeiten von LLMs und LMMs und zeigt die Bereiche auf, in denen Verbesserungsbedarf besteht. Die Ergebnisse der Evaluierung unterstreichen die Notwendigkeit, KI-Modelle gezielt auf die komplexen Anforderungen wissenschaftlicher Arbeitsprozesse zu trainieren. M3SciQA trägt dazu bei, die Entwicklung von KI-Partnern für die wissenschaftliche Forschung voranzutreiben und neue Möglichkeiten für die Analyse wissenschaftlicher Literatur zu eröffnen.

Bibliographie: https://arxiv.org/abs/2411.04075 https://arxiv.org/html/2411.04075v1 https://x.com/gm8xx8/status/1854361639803318426 https://2024.emnlp.org/program/accepted_findings/ https://papers.cool/arxiv/2411.04075 https://www.arxiv.dev/cs/AI https://aclanthology.org/2024.findings-emnlp.0.pdf https://gist.github.com/masta-g3/8f7227397b1053b42e727bbd6abf1d2e https://www.zhuanzhi.ai/paper/e7d16024496ed78202642d69e0c75043 http://82.156.199.67:9002/

Was bedeutet das?