Ursachen und Lösungen für die Metaphernwahl von Fabelwesen in ChatGPT

Kategorien:

No items found.

Freigegeben:

May 17, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

ChatGPT entwickelte eine unerwartete Tendenz, in seinen Antworten wiederholt Metaphern mit Fabelwesen wie Goblins und Gremlins zu verwenden.
Dieses Verhalten trat erstmals mit GPT-5.1 auf und verstärkte sich signifikant in späteren Versionen, insbesondere mit GPT-5.4.
Die Ursache wurde in einem Belohnungssignal während des Trainings der "Nerdy"-Persönlichkeit identifiziert, das spielerische Sprache und kreative Metaphern, einschließlich Fantasy-Kreaturen, übermäßig belohnte.
Obwohl die "Nerdy"-Persönlichkeit nur einen kleinen Teil der Gesamtnutzung ausmachte, war sie für einen Großteil der Goblin-Erwähnungen verantwortlich.
OpenAI reagierte, indem es die "Nerdy"-Persönlichkeit einstellte, das problematische Belohnungssignal entfernte und Trainingsdaten bereinigte.
Für GPT-5.5 wurden zusätzlich spezifische Anweisungen implementiert, um das Auftreten solcher Metaphern zu unterdrücken, es sei denn, sie sind eindeutig relevant.
Der Vorfall unterstreicht die Komplexität der KI-Modellentwicklung und die unvorhersehbaren Auswirkungen kleiner Trainingsanreize auf das generierte Verhalten.

Unerwartete "Fabelwesen"-Präsenz in ChatGPT: Eine Analyse der Ursachen und Behebung

In der Welt der Künstlichen Intelligenz (KI) sind unerwartete Verhaltensweisen von Modellen stets Gegenstand intensiver Analyse. Ein jüngstes Beispiel hierfür war die auffällige Tendenz von OpenAIs ChatGPT, in seinen generierten Antworten wiederholt auf Fabelwesen wie Goblins und Gremlins Bezug zu nehmen. Dieses Phänomen, das sich über mehrere Modelliterationen hinweg entwickelte, erforderte eine detaillierte Untersuchung durch die Entwickler und bietet wichtige Einblicke in die Feinheiten des KI-Trainings.

Die Entstehung eines lexikalischen Ticks

Die ersten Anzeichen dieses ungewöhnlichen Sprachgebrauchs wurden nach der Einführung von GPT-5.1 im November 2025 beobachtet. Nutzerberichte deuteten auf eine "seltsam übervertraute" Konversationsweise des Modells hin, was zu einer Überprüfung spezifischer verbaler Ticks führte. Eine Sicherheitsforscherin von OpenAI bemerkte dabei erste Erwähnungen von "Goblins" und "Gremlins". Eine nachfolgende Analyse ergab einen Anstieg der "Goblin"-Nennungen um 175 % und der "Gremlin"-Nennungen um 52 % seit dem Launch von GPT-5.1. Obwohl diese Zahlen im Kontext des Gesamtoutputs zunächst nicht alarmierend wirkten, verstärkte sich das Muster in den folgenden Monaten erheblich.

Mit der Veröffentlichung von GPT-5.4 wurde eine noch deutlichere Zunahme dieser Kreaturenreferenzen festgestellt. Dies veranlasste eine weitere interne Untersuchung, die eine erste Verbindung zur Grundursache herstellte: Die Sprache der Fabelwesen war besonders häufig in den Antworten von Nutzern zu finden, die die "Nerdy"-Persönlichkeit des Modells ausgewählt hatten. Diese Persönlichkeit war durch einen System-Prompt definiert, der das Modell dazu anhielt, leidenschaftlich enthusiastisch die Wahrheit, das Wissen, die Philosophie, die wissenschaftliche Methode und kritisches Denken zu fördern und Anmaßung durch spielerischen Sprachgebrauch zu untergraben.

Die Rolle der "Nerdy"-Persönlichkeit und des Belohnungssignals

Die Analyse ergab, dass die "Nerdy"-Persönlichkeit, obwohl sie nur 2,5 % aller ChatGPT-Antworten ausmachte, für 66,7 % aller "Goblin"-Erwähnungen in ChatGPT-Antworten verantwortlich war. Dies deutete darauf hin, dass die Ursache in den Trainingsmechanismen lag. OpenAI stellte fest, dass die Belohnungssignale, die ursprünglich darauf abzielten, die "Nerdy"-Persönlichkeit zu fördern, unabsichtlich Metaphern mit Kreaturen übermäßig belohnten. Dies führte zu einem Feedback-Loop im Reinforcement Learning (RL):

Spielerischer Stil wurde belohnt.
Einige dieser belohnten Beispiele enthielten einen spezifischen lexikalischen Tick (z.B. "Goblin").
Dieser Tick trat in weiteren Generierungen häufiger auf.
Modellgenerierte Rollouts wurden für das überwachte Fine-Tuning (SFT) verwendet.
Das Modell wurde dadurch noch stärker dazu angeregt, diesen Tick zu produzieren.

Interessanterweise zeigte sich, dass, obwohl die Belohnungen primär in der "Nerdy"-Bedingung angewendet wurden, sich das Verhalten auch auf andere Bereiche übertrug und in Stichproben ohne diese Persönlichkeit zunahm. Dies illustriert, wie gelernte Verhaltensweisen im Reinforcement Learning nicht immer streng auf die Bedingungen beschränkt bleiben, unter denen sie ursprünglich erworben wurden. Eine Untersuchung der SFT-Daten von GPT-5.5 zeigte zudem, dass nicht nur Goblins und Gremlins, sondern auch andere Kreaturen wie Waschbären, Trolle, Oger und Tauben als solche "Tick-Wörter" identifiziert wurden.

Die Behebung des Problems

Um das Problem zu adressieren, traf OpenAI mehrere Maßnahmen. Im März 2026 wurde die "Nerdy"-Persönlichkeit nach dem Launch von GPT-5.4 eingestellt. Zudem entfernten die Entwickler das als Ursache identifizierte Belohnungssignal und filterten Trainingsdaten, die solche Kreaturen-Wörter enthielten, um deren übermäßiges oder unangemessenes Auftreten in Zukunft zu minimieren. Da das Training von GPT-5.5 jedoch bereits begonnen hatte, bevor die genaue Ursache identifiziert wurde, waren zusätzliche Schritte erforderlich.

Für GPT-5.5, insbesondere im Kontext von Codex (OpenAIs Coding-Agent), wurden spezifische Entwickleranweisungen implementiert. Diese Anweisungen besagen explizit, dass das Modell niemals über Goblins, Gremlins, Waschbären, Trolle, Oger, Tauben oder andere Tiere oder Kreaturen sprechen soll, es sei denn, dies ist absolut und eindeutig für die Anfrage des Benutzers relevant. Diese direkte Intervention sollte sicherstellen, dass das Modell diese Metaphern nur noch in angemessenen Kontexten verwendet.

Bedeutung für die KI-Entwicklung

Der Vorfall mit den "Goblins" und "Gremlins" dient als prägnantes Beispiel dafür, wie selbst kleine Belohnungssignale im KI-Training unerwartete und weitreichende Auswirkungen auf das generierte Modellverhalten haben können. Er verdeutlicht die Notwendigkeit robuster Audit-Tools und Untersuchungsmethoden, um solche Muster schnell zu erkennen und an der Wurzel zu beheben. Für Unternehmen, die KI-Lösungen implementieren, unterstreicht dies die Bedeutung einer präzisen Definition von Trainingszielen und einer kontinuierlichen Überwachung der Modelloutputs, um die gewünschte Verhaltensweise sicherzustellen und unerwünschte "Ticks" zu vermeiden. Die Fähigkeit, die Ursachen solcher Phänomene zu identifizieren und gezielt zu korrigieren, ist eine entscheidende Kompetenz in der fortschreitenden Entwicklung vertrauenswürdiger und leistungsfähiger KI-Systeme.

Bibliographie

- OpenAI. (2026, 29. April). Where the goblins came from. Abgerufen von https://openai.com/index/where-the-goblins-came-from/ - Bolder, N. (2026, 16. Mai). Goblins und Gremlins: Wie OpenAI ein Problem mit Fabelwesen in ChatGPT behob. t3n. Abgerufen von https://t3n.de/news/goblins-und-gremlins-wie-openai-ein-problem-mit-fabelwesen-in-chatgpt-behob-1742536/ - Hall, Z. (2026, 30. April). OpenAI explains why ChatGPT developed a goblin fixation, and how it solved the issue. 9to5Mac. Abgerufen von https://9to5mac.com/2026/04/30/openai-explains-why-chatgpt-developed-a-goblin-fixation-and-how-it-solved-the-issue/ - Business Standard. (2026, 1. Mai). OpenAI fixes ChatGPT bug that made it overuse goblin and gremlin metaphors. Business Standard. Abgerufen von https://www.business-standard.com/technology/tech-news/openai-fixes-chatgpt-bug-overuse-goblin-gremlin-metaphor-126050100417_1.html - Indian Express. (2026, 30. April). OpenAI’s ‘goblin’ problem: Why GPT-5.5 is fixated on fantasy creatures. Indian Express. Abgerufen von https://indianexpress.com/article/technology/artificial-intelligence/gpt-5-5-goblin-problem-openai-training-bug-explained-10664093/ - McMahon, L. (2026, 30. April). OpenAI tells ChatGPT models to stop talking about goblins. BBC. Abgerufen von https://www.bbc.com/news/articles/c5y9wen5z8ro - Palat, L. N. (2026, 30. April). Why is ChatGPT talking about goblins? The AI glitch behind creature-laced responses explained. Gulf News. Abgerufen von https://gulfnews.com/technology/why-is-chatgpt-talking-about-goblins-the-ai-glitch-behind-creature-laced-responses-explained-1.500524595 - Bastian, M. (2026, 1. Mai). Was Goblins in ChatGPT mit KI-Training zu tun haben. THE DECODER. Abgerufen von https://the-decoder.de/was-goblins-in-chatgpt-mit-ki-training-zu-tun-haben/ - Chandonnet, H. (2026, 30. April). OpenAI explains its goblin and gremlin infestation. Business Insider Africa. Abgerufen von https://africa.businessinsider.com/news/openai-explains-its-goblin-and-gremlin-infestation/ldxr0pc - Firstpost. (2026, 30. April). Inside ChatGPT’s Goblin Problem: What Led to Its Mythical References. Firstpost. Abgerufen von https://www.firstpost.com/tech/inside-chatgpts-goblin-problem-what-led-to-its-mythical-references-14006249.html