Mit dem Aufkommen von generativer Künstlicher Intelligenz (KI) wie ChatGPT, Bard und anderen Tools, die auf großen Sprachmodellen (LLMs) basieren, hat sich die Art und Weise, wie Texte verfasst werden, grundlegend verändert. Diese Technologien sind in der Lage, menschlich klingende Texte zu erzeugen, was sowohl Chancen als auch Herausforderungen mit sich bringt. Eine der größten Herausforderungen besteht darin, KI-generierte Texte von menschlich verfassten Texten zu unterscheiden. In diesem Artikel werden wir die spezifischen Wörter und Phrasen untersuchen, die häufig in generativen KI-Texten vorkommen und somit als Erkennungsmerkmale dienen können.
Forscher haben festgestellt, dass bestimmte Wörter und Phrasen in Texten, die von LLMs generiert wurden, überproportional häufig vorkommen. Diese Wörter dienen oft als Indikatoren dafür, dass ein Text von einer KI erzeugt wurde. Hier sind einige dieser häufig verwendeten Wörter:
- Craft
- Super
- Cool
- Scoop
- Is like
- Forge
- Elevate
Diese Wörter erscheinen in generativen KI-Texten aus verschiedenen Gründen. Zum Beispiel neigen LLMs dazu, das Wort "craft" übermäßig häufig zu verwenden, wenn es darum geht, Inhalte zu erstellen. Ebenso wird "super" oft als allgemeines Superlativ verwendet, um positive Beschreibungen zu verstärken. Solche Wörter können ein Hinweis darauf sein, dass ein Text von einer KI generiert wurde, insbesondere wenn sie übermäßig verwendet werden.
Die Erkennung von KI-generierten Texten durch die Analyse der Wortwahl ist keine neue Idee. Forscher an der Universität Tübingen und der Northwestern University haben eine Methode entwickelt, um die Verwendung von "Exzesswörtern" zu analysieren. Diese Methode basiert auf der Beobachtung, dass bestimmte Wörter nach der Einführung von LLMs signifikant häufiger verwendet wurden. Beispiele hierfür sind Wörter wie "delve", "showcasing" und "underscores".
Die Forscher analysierten 14 Millionen Abstracts wissenschaftlicher Arbeiten, die zwischen 2010 und 2024 auf PubMed veröffentlicht wurden. Sie stellten fest, dass Wörter wie "delves" und "showcasing" nach 2023 in den Abstracts deutlich häufiger vorkamen. Diese Veränderungen in der Wortfrequenz deuten darauf hin, dass LLMs in einem erheblichen Anteil dieser Texte verwendet wurden.
Neben spezifischen Wörtern gibt es auch stilistische Merkmale, die auf KI-generierte Texte hinweisen. Diese Merkmale umfassen die übermäßige Verwendung bestimmter Satzstrukturen und die Tendenz, Übergangswörter und -phrasen einzufügen, um den Text kohärenter erscheinen zu lassen. Beispiele für solche Übergangswörter sind "additionally", "furthermore" und "moreover".
Ein typisches Beispiel für einen KI-generierten Satz könnte lauten: "A comprehensive grasp of the intricate interplay between [...] and [...] is pivotal for effective therapeutic strategies." Solche Sätze sind oft komplex und enthalten viele beschreibende Wörter, die in menschlich verfassten Texten weniger häufig in dieser Dichte vorkommen.
Interessanterweise variieren die Häufigkeiten der Verwendung von KI-generierten Texten je nach Region. Die Forscher fanden heraus, dass in Ländern wie China, Südkorea und Taiwan häufiger LLM-Marker-Wörter verwendet wurden. Dies könnte darauf hindeuten, dass LLMs in diesen Regionen häufiger zur Unterstützung beim Verfassen englischer Texte eingesetzt werden.
Das Erkennen von KI-generierten Texten ist wichtig, da LLMs dafür bekannt sind, manchmal ungenaue oder falsche Informationen zu liefern. Die Kenntnis der Erkennungsmerkmale kann dazu beitragen, die Qualität und Zuverlässigkeit von Texten zu bewerten, insbesondere in wissenschaftlichen und journalistischen Kontexten.
Die Identifizierung von KI-generierten Texten bleibt eine Herausforderung, aber die Analyse von Wortwahl und stilistischen Merkmalen bietet nützliche Hinweise. Während LLMs weiterhin verbessert werden, ist es wahrscheinlich, dass sich auch ihre Fähigkeit zur Erzeugung von Texten ohne erkennbare Marker verbessern wird. Bis dahin bleibt es jedoch wichtig, die spezifischen Wörter und Phrasen zu erkennen, die auf eine KI-Generierung hinweisen könnten.
- https://medium.com/swlh/there-are-no-special-words-that-give-away-ai-generated-content-d8781a689422
- https://www.reddit.com/r/ChatGPT/comments/16ff6tw/what_are_some_words_that_chatgpt_constantly_uses/
- https://medium.com/@annualincomelife/these-7-words-are-a-dead-giveaway-your-content-was-written-by-ai-cc131a4468e0
- https://ivanacirkovic.com/en/tipstricks-en/the-ultimate-list-of-dead-giveaway-ai-words-in-the-content/
- https://www.reddit.com/r/OpenAI/comments/1b8gbbt/what_is_a_dead_giveaway_that_something_was/
- https://www.prdaily.com/edit-your-robots-obvious-signs-copy-is-ai-generated/
- https://deepai.org/chat/text-generator
- https://www.wordrake.com/blog/wordy-choppy-generative-ai
- https://shorthand.com/the-craft/ai-writing-tools/index.html