Analyse und Erkennung Sprachlicher Merkmale in KI-generierten Texten

Kategorien:

No items found.

Freigegeben:

July 10, 2024

kostenlos testen Termin buchen

Artikel jetzt als Podcast anhören

Die Erkennungswörter von Generativem KI-Text

‍

Einleitung

Mit dem Aufkommen von generativer Künstlicher Intelligenz (KI) wie ChatGPT, Bard und anderen Tools, die auf großen Sprachmodellen (LLMs) basieren, hat sich die Art und Weise, wie Texte verfasst werden, grundlegend verändert. Diese Technologien sind in der Lage, menschlich klingende Texte zu erzeugen, was sowohl Chancen als auch Herausforderungen mit sich bringt. Eine der größten Herausforderungen besteht darin, KI-generierte Texte von menschlich verfassten Texten zu unterscheiden. In diesem Artikel werden wir die spezifischen Wörter und Phrasen untersuchen, die häufig in generativen KI-Texten vorkommen und somit als Erkennungsmerkmale dienen können.

Häufig verwendete Wörter in KI-generierten Texten

Forscher haben festgestellt, dass bestimmte Wörter und Phrasen in Texten, die von LLMs generiert wurden, überproportional häufig vorkommen. Diese Wörter dienen oft als Indikatoren dafür, dass ein Text von einer KI erzeugt wurde. Hier sind einige dieser häufig verwendeten Wörter:

- Craft
- Super
- Cool
- Scoop
- Is like
- Forge
- Elevate

Erklärungen zu den Wörtern

Diese Wörter erscheinen in generativen KI-Texten aus verschiedenen Gründen. Zum Beispiel neigen LLMs dazu, das Wort "craft" übermäßig häufig zu verwenden, wenn es darum geht, Inhalte zu erstellen. Ebenso wird "super" oft als allgemeines Superlativ verwendet, um positive Beschreibungen zu verstärken. Solche Wörter können ein Hinweis darauf sein, dass ein Text von einer KI generiert wurde, insbesondere wenn sie übermäßig verwendet werden.

Der Einfluss der Wortwahl auf die Erkennung

Die Erkennung von KI-generierten Texten durch die Analyse der Wortwahl ist keine neue Idee. Forscher an der Universität Tübingen und der Northwestern University haben eine Methode entwickelt, um die Verwendung von "Exzesswörtern" zu analysieren. Diese Methode basiert auf der Beobachtung, dass bestimmte Wörter nach der Einführung von LLMs signifikant häufiger verwendet wurden. Beispiele hierfür sind Wörter wie "delve", "showcasing" und "underscores".

Statistische Analyse

Die Forscher analysierten 14 Millionen Abstracts wissenschaftlicher Arbeiten, die zwischen 2010 und 2024 auf PubMed veröffentlicht wurden. Sie stellten fest, dass Wörter wie "delves" und "showcasing" nach 2023 in den Abstracts deutlich häufiger vorkamen. Diese Veränderungen in der Wortfrequenz deuten darauf hin, dass LLMs in einem erheblichen Anteil dieser Texte verwendet wurden.

Stilistische Merkmale von KI-Texten

Neben spezifischen Wörtern gibt es auch stilistische Merkmale, die auf KI-generierte Texte hinweisen. Diese Merkmale umfassen die übermäßige Verwendung bestimmter Satzstrukturen und die Tendenz, Übergangswörter und -phrasen einzufügen, um den Text kohärenter erscheinen zu lassen. Beispiele für solche Übergangswörter sind "additionally", "furthermore" und "moreover".

Beispiele für stilistische Merkmale

Ein typisches Beispiel für einen KI-generierten Satz könnte lauten: "A comprehensive grasp of the intricate interplay between [...] and [...] is pivotal for effective therapeutic strategies." Solche Sätze sind oft komplex und enthalten viele beschreibende Wörter, die in menschlich verfassten Texten weniger häufig in dieser Dichte vorkommen.

Regionale Unterschiede in der Nutzung

Interessanterweise variieren die Häufigkeiten der Verwendung von KI-generierten Texten je nach Region. Die Forscher fanden heraus, dass in Ländern wie China, Südkorea und Taiwan häufiger LLM-Marker-Wörter verwendet wurden. Dies könnte darauf hindeuten, dass LLMs in diesen Regionen häufiger zur Unterstützung beim Verfassen englischer Texte eingesetzt werden.

Warum ist das wichtig?

Das Erkennen von KI-generierten Texten ist wichtig, da LLMs dafür bekannt sind, manchmal ungenaue oder falsche Informationen zu liefern. Die Kenntnis der Erkennungsmerkmale kann dazu beitragen, die Qualität und Zuverlässigkeit von Texten zu bewerten, insbesondere in wissenschaftlichen und journalistischen Kontexten.

Schlussfolgerung

Die Identifizierung von KI-generierten Texten bleibt eine Herausforderung, aber die Analyse von Wortwahl und stilistischen Merkmalen bietet nützliche Hinweise. Während LLMs weiterhin verbessert werden, ist es wahrscheinlich, dass sich auch ihre Fähigkeit zur Erzeugung von Texten ohne erkennbare Marker verbessern wird. Bis dahin bleibt es jedoch wichtig, die spezifischen Wörter und Phrasen zu erkennen, die auf eine KI-Generierung hinweisen könnten.

Bibliographie

- https://medium.com/swlh/there-are-no-special-words-that-give-away-ai-generated-content-d8781a689422
- https://www.reddit.com/r/ChatGPT/comments/16ff6tw/what_are_some_words_that_chatgpt_constantly_uses/
- https://medium.com/@annualincomelife/these-7-words-are-a-dead-giveaway-your-content-was-written-by-ai-cc131a4468e0
- https://ivanacirkovic.com/en/tipstricks-en/the-ultimate-list-of-dead-giveaway-ai-words-in-the-content/
- https://www.reddit.com/r/OpenAI/comments/1b8gbbt/what_is_a_dead_giveaway_that_something_was/
- https://www.prdaily.com/edit-your-robots-obvious-signs-copy-is-ai-generated/
- https://deepai.org/chat/text-generator
- https://www.wordrake.com/blog/wordy-choppy-generative-ai
- https://shorthand.com/the-craft/ai-writing-tools/index.html

Was bedeutet das?