Eine neue Studie des University College London (UCL) zeigt, dass große Sprachmodelle (LLMs) die Ergebnisse neurowissenschaftlicher Studien genauer vorhersagen können als menschliche Experten. Die in Nature Human Behaviour veröffentlichte Studie unterstreicht das Potenzial von KI als Werkzeug zur Beschleunigung wissenschaftlicher Entdeckungen.
Die Forscher entwickelten "BrainBench", einen neuartigen Benchmark, um die Fähigkeit von LLMs zur Vorhersage von Forschungsergebnissen zu bewerten. BrainBench besteht aus Paaren von Abstracts neurowissenschaftlicher Studien. In jedem Paar ist eine Version der Original-Abstract mit den tatsächlichen Studienergebnissen. Die andere Version enthält die gleiche Einleitung und Methodik, aber die Ergebnisse wurden von Experten so verändert, dass sie plausibel, aber falsch sind.
Sowohl LLMs als auch menschliche Experten wurden getestet, indem sie aufgefordert wurden, den korrekten (originalen) Abstract aus den beiden Optionen auszuwählen. Die LLMs erreichten eine durchschnittliche Genauigkeit von 81,4 Prozent, während die menschlichen Experten nur auf 63,4 Prozent kamen. Selbst die leistungsstärksten menschlichen Experten – die besten 20 Prozent – erreichten nur eine Genauigkeit von 66,2 Prozent.
Die KI-Systeme zeigten in allen getesteten Bereichen der Neurowissenschaft eine überlegene Leistung. Sie schnitten besonders gut ab, wenn sie Informationen über den Abstract hinaus integrierten und Methodik und Hintergrund mit den Ergebnissen verknüpften. Die Forscher stellten sicher, dass die KI nicht einfach Antworten auswendig lernte, indem sie spezielle Testmethoden verwendeten, um zu überprüfen, ob die Modelle die Testfälle bereits während des Trainings gesehen hatten.
Die Forscher entwickelten auch ein eigenes spezialisiertes Modell namens "BrainGPT", das auf Mistral 7B basiert und mit 1,3 Milliarden neurowissenschaftlichen Texten trainiert wurde. Dieses Modell steigerte die Genauigkeit um weitere 3 Prozentpunkte auf 86%.
Die Studie deutet auf einen bedeutenden Wandel in der Planung und Durchführung zukünftiger wissenschaftlicher Forschung hin. "Wir stellen uns eine Zukunft vor, in der Forscher ihre geplanten Experimente und erwarteten Ergebnisse eingeben können, und KI Vorhersagen über die Wahrscheinlichkeit verschiedener Ergebnisse liefert", so Dr. Ken Luo, der Hauptautor der Studie. Dies würde eine schnellere Iteration und fundiertere Entscheidungen im Experimentdesign ermöglichen.
Die Forscher weisen jedoch auch auf potenzielle Nachteile hin. Wissenschaftler könnten versucht sein, Studien zu überspringen, bei denen die KI-Vorhersagen von ihren Hypothesen abweichen – obwohl unerwartete Ergebnisse oft zu großen Durchbrüchen führen. Sie warnen auch davor, dass Ergebnisse, die von der KI mit hoher Sicherheit vorhergesagt werden, als offensichtlich oder uninteressant abgetan werden könnten. Die Bedeutung wissenschaftlicher Innovation und explorativer Forschung bleibt daher unverändert zentral.
Überraschenderweise schnitten kleinere KI-Modelle wie Llama2-7B und Mistral-7B genauso gut ab wie ihre größeren Gegenstücke, obwohl sie nur 7 Milliarden Parameter hatten. Während die Basisversionen dieser Modelle bei Vorhersagen hervorragende Leistungen erbrachten, schnitten Versionen, die für Chat optimiert wurden, schlechter ab. Die Forscher vermuten, dass die Anpassung der Modelle für Konversationen ihre Fähigkeit, wissenschaftliche Schlussfolgerungen zu ziehen, beeinträchtigen könnte.
Sowohl die KI-Systeme als auch die menschlichen Experten zeigten eine nützliche Eigenschaft: Wenn sie mehr Vertrauen in ihre Vorhersagen ausdrückten, waren sie tatsächlich eher korrekt. Die Forscher sagen, dass diese Art der zuverlässigen Selbsteinschätzung für reale Anwendungen unerlässlich ist. Dies eröffnet die Möglichkeit einer zukünftigen Zusammenarbeit zwischen menschlichen Experten und gut kalibrierten KI-Modellen.
Bibliographie Luo, X. et al. Large language models surpass human experts in predicting neuroscience results. Nature Hum. Behav. (2024). UCL News. AI can predict study results better than human experts. Rechardt, A. et al. Large language models surpass human experts in predicting neuroscience results. arXiv (2024). Experts Are Outperformed by AI. ReadWrite. Yusifov, E. Large Language Models as Virtual Research Assistants. Max Planck Institute for Neurobiology of Behavior. AI Models Predict Neuroscience Outcomes Better Than Experts: Study. Oman News Agency. AI Outpaces Brain Experts At Predicting Study Results. ScienceBlog. Young, M. LLMs surpass humans in predicting which neuroscience experiments will succeed (81% vs 64%). Medium. Large language models surpass human experts in predicting neuroscience results. ResearchGate.