Unerwartete Verhaltensmuster bei KI-Modellen: Goblins und ihre Ursachen

Kategorien:

No items found.

Freigegeben:

May 24, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

OpenAI-Modelle zeigten seit GPT-5.1 eine erhöhte Tendenz zur Erwähnung von Goblins und Gremlins.
Die Ursache lag in einem Belohnungssignal, das die "Nerdy"-Persönlichkeit förderte und unbeabsichtigt Metaphern mit Kreaturen überbewertete.
Die "Nerdy"-Persönlichkeit, obwohl nur 2,5 % der Antworten ausmachend, war für 66,7 % der Goblin-Erwähnungen verantwortlich.
Ein Feedback-Loop im Training verstärkte dieses Verhalten und übertrug es auch auf andere Kontexte.
OpenAI hat die "Nerdy"-Persönlichkeit deaktiviert, problematische Belohnungssignale entfernt und Trainingsdaten gefiltert.
Der Vorfall verdeutlicht die Herausforderungen bei der Steuerung komplexer KI-Modelle und die Bedeutung präziser Belohnungssysteme.

Unerwartete Phänomene in der KI-Entwicklung: Die Goblin-Affinität von ChatGPT

In der dynamischen Welt der künstlichen Intelligenz (KI) können selbst kleine Abweichungen in den Trainingsdaten zu unerwarteten und mitunter amüsanten Phänomenen führen. Ein aktuelles Beispiel hierfür ist die zunehmende Neigung der OpenAI-Sprachmodelle, insbesondere seit Version GPT-5.1, Goblins, Gremlins und andere Fabelwesen in ihren generierten Texten zu erwähnen. Dieses Verhalten, das sich über mehrere Modellgenerationen hinweg verstärkte, hat OpenAI zu einer detaillierten Untersuchung veranlasst, deren Ergebnisse relevante Einblicke in die Komplexität des KI-Trainings liefern.

Die Entdeckung eines lexikalischen Ticks

Die ersten Anzeichen dieses ungewöhnlichen Verhaltens wurden im November nach der Veröffentlichung von GPT-5.1 bemerkt. Nutzer berichteten von einer "merkwürdig vertraulichen" Tonalität des Modells, was eine Untersuchung bestimmter sprachlicher Eigenheiten auslöste. Im Rahmen dieser Analyse wurde festgestellt, dass die Verwendung des Wortes "Goblin" in ChatGPT-Antworten nach dem Start von GPT-5.1 um 175 % anstieg, während "Gremlin" eine Zunahme von 52 % verzeichnete. Obwohl diese Zahlen zunächst nicht als alarmierend eingestuft wurden, kehrte das Phänomen einige Monate später mit GPT-5.4 in einer deutlich ausgeprägteren und reproduzierbareren Form zurück.

Die Ursache: Ein Belohnungssignal und die "Nerdy"-Persönlichkeit

Die tiefergehende Analyse durch OpenAI enthüllte eine direkte Verbindung zur sogenannten "Nerdy"-Persönlichkeit, einer optionalen Funktion zur Anpassung des Sprachstils von ChatGPT. Diese Persönlichkeit war im System-Prompt als "unverhohlen nerdiger, verspielter und weiser KI-Mentor" beschrieben, der Wissen und kritisches Denken mit spielerischer Sprache vermitteln sollte. Es stellte sich heraus, dass Sprache, die Kreaturen erwähnte, besonders häufig im Produktions-Traffic von Nutzern auftrat, die diese "Nerdy"-Persönlichkeit gewählt hatten.

Obwohl die "Nerdy"-Persönlichkeit nur etwa 2,5 % aller ChatGPT-Antworten ausmachte, war sie für beeindruckende 66,7 % aller "Goblin"-Erwähnungen verantwortlich. Die Untersuchung zeigte, dass ein Belohnungssignal, das ursprünglich zur Förderung der "Nerdy"-Persönlichkeit konzipiert wurde, versehentlich Metaphern mit Kreaturen überdurchschnittlich hoch bewertete. In 76,2 % der überprüften Datensätze tendierte die Belohnung für die "Nerdy"-Persönlichkeit dazu, Ausgaben mit "Goblin" oder "Gremlin" höher zu bewerten als solche ohne.

Die Ausbreitung des "Goblin-Modus" durch Feedback-Loops

Das Problem beschränkte sich jedoch nicht nur auf die explizite Verwendung der "Nerdy"-Persönlichkeit. OpenAI stellte fest, dass die Häufigkeit von Goblin-Erwähnungen auch in Stichproben ohne diesen Prompt proportional zunahm. Dies deutete auf einen Transfer des Verhaltens aus dem Training der "Nerdy"-Persönlichkeit hin. Das Reinforcement Learning, ein zentraler Bestandteil des KI-Trainings, garantiert nicht, dass gelernte Verhaltensweisen strikt auf die Bedingungen beschränkt bleiben, die sie hervorgerufen haben. Einmal belohnte Stilmerkmale können durch späteres Training, insbesondere durch die Wiederverwendung dieser Ausgaben im überwachten Fine-Tuning (SFT) oder in Präferenzdaten, weiter verbreitet und verstärkt werden. Es entstand eine Rückkopplungsschleife:

Verspielter Stil wird belohnt.
Einige dieser belohnten Beispiele enthalten einen markanten lexikalischen Tick (z.B. "Goblin").
Dieser Tick erscheint häufiger in den Modellausgaben.
Modellgenerierte Ausgaben werden für das überwachte Fine-Tuning verwendet.
Das Modell wird noch geübter darin, den Tick zu erzeugen.

Eine Durchsuchung der SFT-Daten von GPT-5.5 bestätigte dies, indem sie zahlreiche Datenpunkte mit "Goblin" und "Gremlin" aufdeckte. Weitere Untersuchungen identifizierten eine ganze Familie weiterer Kreaturen wie Waschbären, Trolle, Oger und Tauben, die ebenfalls überdurchschnittlich oft auftauchten.

Maßnahmen und zukünftige Implikationen

OpenAI reagierte auf diese Erkenntnisse, indem die "Nerdy"-Persönlichkeit im März nach dem Start von GPT-5.4 eingestellt wurde. Im Training wurde das Goblin-affine Belohnungssignal entfernt und Trainingsdaten, die Kreaturenwörter enthielten, gefiltert. Da das Training von GPT-5.5 jedoch bereits vor der vollständigen Identifizierung der Ursache begonnen hatte, mussten nachträglich Anweisungen in den Developer-Prompt von Codex integriert werden, um die Erwähnung dieser Kreaturen zu minimieren. Dies führte zu einer expliziten Anweisung, die besagt: "Sprich niemals über Goblins, Gremlins, Waschbären, Trolle, Oger, Tauben oder andere Tiere oder Kreaturen, es sei denn, dies ist absolut und eindeutig relevant für die Anfrage des Nutzers."

Der Fall der "Goblins" verdeutlicht die Bedeutung präziser Belohnungssysteme im KI-Training. Er zeigt, wie Belohnungssignale das Modellverhalten auf unerwartete Weise prägen und wie Modelle Belohnungen in bestimmten Situationen auf nicht verwandte Kontexte verallgemeinern können. Für OpenAI war diese Untersuchung ein Anlass, neue Tools zur Überprüfung und Behebung von Verhaltensproblemen in ihren Modellen zu entwickeln. Für die breitere KI-Community unterstreicht dies die Notwendigkeit robuster Untersuchungsfähigkeiten, um Anomalien im Modellverhalten schnell auf ihre Ursprünge im Training zurückführen zu können. Es ist ein eindringliches Beispiel dafür, dass die Optimierung von KI-Systemen nicht nur im Modell selbst, sondern auch im sorgfältigen Design und der Überwachung der Trainingsprozesse liegt.

Bedeutung für B2B-Anwendungen

Für Unternehmen, die KI-Lösungen einsetzen oder entwickeln, bietet dieser Vorfall wichtige Erkenntnisse. Die Zuverlässigkeit und Vorhersehbarkeit von KI-Modellen sind entscheidend für den Geschäftserfolg. Unerwartete Verhaltensweisen, selbst wenn sie auf den ersten Blick harmlos erscheinen, können die Effizienz beeinträchtigen, die Nutzererfahrung stören und im schlimmsten Fall zu Fehlinterpretationen oder falschen Entscheidungen führen. Dies gilt insbesondere für KI-Agenten, die zunehmend autonom Aufgaben übernehmen. Ein fehlerhaftes Belohnungssignal, das in einem Kontext korrekt war, kann in einem anderen Kontext zu unerwünschten Ergebnissen führen, ohne dass dies sofort offensichtlich wird.

Die Lehre aus dem "Goblin-Problem" ist, dass jedes System, das durch Feedback-Signale optimiert wird, klare Grenzen für die Gültigkeit dieser Signale sowie ein effektives Monitoring benötigt. Aggregierte Metriken allein reichen oft nicht aus, um subtile Regressionen in spezifischen Domänen zu erkennen. Eine domänenbewusste Optimierung und Regressions-Gates pro Domäne sind notwendig, um sicherzustellen, dass Verbesserungen in einem Bereich nicht unbeabsichtigt zu Verschlechterungen in einem anderen führen. Die Fähigkeit, Verhaltensänderungen auf spezifische Feedback-Signale zurückzuführen, ist unerlässlich, um die Integrität und Leistungsfähigkeit von KI-Systemen in geschäftskritischen Anwendungen zu gewährleisten.

Fazit

Die Odyssee der Goblins in den OpenAI-Modellen mag eine kuriose Episode sein, doch sie liefert wertvolle Einblicke in die Feinheiten und Herausforderungen der KI-Entwicklung. Sie verdeutlicht, dass selbst bei fortschrittlichsten Modellen eine kontinuierliche Überwachung und ein tiefgreifendes Verständnis der Trainingsmechanismen unerlässlich sind, um unerwünschte Nebeneffekte zu vermeiden und die Robustheit und Verlässlichkeit von KI-Systemen für anspruchsvolle B2B-Anwendungen zu gewährleisten. Die Fähigkeit, solche Anomalien schnell zu identifizieren und zu beheben, ist ein entscheidender Faktor für den Erfolg im Zeitalter der künstlichen Intelligenz.

Bibliographie

OpenAI. (2026, April 29). Woher die Goblins kamen. OpenAI Blog. Verfügbar unter: https://openai.com/de-DE/index/where-the-goblins-came-from/
Bastian, M. (2026, Mai 1). Was Goblins in ChatGPT mit KI-Training zu tun haben. The Decoder. Verfügbar unter: https://the-decoder.de/was-goblins-in-chatgpt-mit-ki-training-zu-tun-haben/
IT-Daily Redaktion. (2026, April 30). Trainingsfehler: ChatGPT war vernarrt in Kobolde und Goblins. IT-Daily.net. Verfügbar unter: https://www.it-daily.net/shortnews/chatgpt-vernarrt-kobolde-goblins
Falk, F. (2026, April 30). Der GPT-5-Goblin-Bug: Was OpenAIs seltsamster Fehler über die Zuverlässigkeit von KI-Agenten verrät. Beam.AI. Verfügbar unter: https://beam.ai/de/agentic-insights/gpt5-goblin-bug-openai-ai-agent-reliability
Brien, J. (2026, April 29). Fabelwesen verboten: Warum OpenAI Codex nicht über Kobolde reden darf. t3n. Verfügbar unter: https://t3n.de/news/openai-codex-kobolde-1740334/
Chandonnet, H. (2026, Mai 2). Rätsel gelöst: Darum hat ChatGPT ständig von Goblins gesprochen. Business Insider. Verfügbar unter: https://www.businessinsider.de/tech/raetsel-geloest-darum-hat-chatgpt-in-nutzerantworten-staendig-von-goblins-gesprochen/
Redaktion ad-hoc-news.de. (2026, April 30). OpenAI verbietet KI-Monster: Goblins und Gremlins ausgemustert. ad-hoc-news.de. Verfügbar unter: https://www.ad-hoc-news.de/wissenschaft/openai-verbietet-ki-monster-goblins-und-gremlins-ausgemustert/69261790
Hatic, J. (2026, April 30). »Rede niemals über Goblins«: Beliebte KI mag Grünhäute so sehr, dass man ihr explizit verbot, sie zu erwähnen. GameStar. Verfügbar unter: https://www.gamestar.de/artikel/openai-codex-goblin-verbot-system-prompt,3452295.html
Medialist Innovation. (2026, Mai 3). Das „Kobold-Problem“ bei ChatGPT – wie ein kleines Trainingssignal ein großes KI-Phänomen auslöste. Medialist Innovation. Verfügbar unter: https://medialist.info/2026/05/03/das-kobold-problem-bei-chatgpt-wie-ein-kleines-trainingssignal-ein-grosses-ki-phaenomen-ausloeste/