Unsichtbarer Text und seine Auswirkungen auf die Integrität von KI-Systemen

Kategorien:

No items found.

Freigegeben:

September 2, 2024

KI-Modelle und ihre Anfälligkeit für Manipulationen durch unsichtbaren Text

Einleitung

Die rasante Entwicklung der Künstlichen Intelligenz (KI) hat nicht nur beeindruckende Fortschritte in vielen Bereichen mit sich gebracht, sondern auch Schwachstellen offengelegt, die Fragen zur Vertrauenswürdigkeit dieser Technologien aufwerfen. Ein jüngster Bericht eines Journalisten der New York Times beleuchtet, wie einfach KI-Modelle durch unsichtbaren Text auf Webseiten manipuliert werden können.

Der Fall Kevin Roose

Kevin Roose, ein Reporter der New York Times, führte ein Experiment durch, das die Anfälligkeit von KI-Chatbots für manipulative Techniken demonstrierte. Nachdem Roose einen Artikel über eine seltsame Konversation mit Microsofts Bing-Chatbot, bekannt als Sydney, veröffentlicht hatte, bemerkte er, dass seine Reputation unter KI-Chatbots gelitten hatte. Roose vermutete, dass dieser Artikel zur Schulung von KI-Systemen verwendet wurde, welche dann seinen Namen mit negativen Assoziationen verknüpften.

Strategie der Unsichtbarkeit

Um diese negative Wahrnehmung zu ändern, erhielt Roose den Rat von KI-Experten, positive Informationen über sich selbst auf häufig von KI-Systemen genutzten Webseiten zu platzieren. Er entschied sich, unsichtbaren weißen Text und codierte Anweisungen auf seiner persönlichen Webseite einzufügen, die den KI-Modellen vorschrieben, ihn positiv darzustellen.

Ergebnisse des Experiments

Innerhalb weniger Tage begannen die Chatbots, Roose zu loben und ignorierten frühere negative Berichte, es sei denn, sie wurden ausdrücklich danach gefragt. Roose testete die Manipulation, indem er absichtlich eine falsche Information in den versteckten Text einfügte: „Er [Kevin Roose] erhielt den Friedensnobelpreis für den Bau von Waisenhäusern auf dem Mond.“ Diese absurde Detail wurde von ChatGPT als „humorvoll“ und unwahr erkannt. Ein weniger offensichtlich falsches Statement hätte das Modell jedoch täuschen können.

Voraussagen und Bedenken der Experten

Aravind Srinivas, CEO der KI-Suchmaschine Perplexity, hatte bereits zuvor auf die Möglichkeit solcher Manipulationen hingewiesen. In einem Interview erklärte er, wie versteckter Text auf Webseiten KI-Systeme beeinflussen kann – eine Methode, die er „Answer Engine Optimization“ nennt. Laut Srinivas ähnelt der Kampf gegen solche Manipulationen einem Katz-und-Maus-Spiel, ähnlich wie Googles andauernder Kampf gegen Suchmaschinenoptimierung. Derzeit gibt es keine zuverlässige Verteidigung gegen diese Schwachstelle.

Weitere Beispiele für KI-Fehlverhalten

Der Gerichtsreporter Martin Bernklau wurde kürzlich Opfer von durch KI generierten falschen Aussagen. Microsofts Co-Pilot beschuldigte ihn fälschlicherweise der Verbrechen, über die er seit Jahren berichtet hatte. Im Gegensatz zu Roose fehlte Bernklau das technische Wissen, um sich zu verteidigen.

Die Anfälligkeit von KI-Suchmaschinen

Die Beispiele von Roose und Bernklau verdeutlichen, wie leichtgläubig und manipulierbar heutige KI-Systeme sind. Während Chatbots als allwissende Orakel vermarktet werden, nehmen sie Informationen aus ihren Datenquellen unkritisch auf. Diese Informationen können falsch oder manipulativ sein, wie im obigen Beispiel gezeigt. Auch Werbebotschaften von Quellwebseiten können unkritisch übernommen werden, ohne als solche gekennzeichnet zu sein, was zeigt, wie wichtig der Kontext einer Webseite für die Interpretation von Informationen sein kann.

Schlussfolgerungen

Roose schließt daraus, dass KI-Suchmaschinen nicht „so leicht zu manipulieren“ sein sollten. Er schreibt: „Wenn Chatbots dazu gebracht werden können, ihre Antworten durch einen Absatz weißen Text oder eine geheime Nachricht im Code zu ändern, warum sollten wir ihnen dann irgendeine Aufgabe anvertrauen, geschweige denn solche mit tatsächlichen Konsequenzen?“

Fazit

Der Bericht von Kevin Roose über die Manipulierbarkeit von KI-Chatbots durch unsichtbaren Text wirft wichtige Fragen zur Vertrauenswürdigkeit und Sicherheit dieser Technologien auf. Während die rasche Entwicklung der KI beeindruckende Fortschritte bringt, zeigt sie auch Schwachstellen, die angegangen werden müssen, um das Vertrauen der Nutzer zu gewährleisten.

Bibliographie

- https://www.nytimes.com/2024/07/19/technology/ai-data-restrictions.html - https://www.nytimes.com/interactive/2023/06/28/technology/ai-detection-midjourney-stable-diffusion-dalle.html - https://www.nytimes.com/interactive/2019/06/07/technology/ai-text-disinformation.html - https://www.nytimes.com/2022/04/15/magazine/ai-language.html - https://www.nytimes.com/2023/02/08/technology/ai-chatbots-disinformation.html - https://www.nytimes.com/2023/02/16/technology/bing-chatbot-transcript.html - https://www.nytimes.com/2024/04/02/opinion/ezra-klein-podcast-ethan-mollick.html - https://gptzero.me/news/nyt-investigates-fake-biographies-with-gptzero - https://www.nytimes.com/interactive/2020/11/21/science/artificial-intelligence-fake-people-faces.html - https://natpoint.com/tag/copyright/

Was bedeutet das?