Die Cloud-Abteilung von Amazon, Amazon Web Services (AWS), hat eine Untersuchung gegen das aufstrebende AI-Such-Startup Perplexity AI eingeleitet. Im Zentrum der Untersuchung steht die Frage, ob Perplexity AI gegen die Regeln von AWS verstößt, indem es Websites crawlt, die dies ausdrücklich verboten haben. Diese Untersuchung wirft ein Licht auf die zunehmenden Spannungen zwischen Technologieunternehmen und Inhaltsanbietern im digitalen Zeitalter.
WIRED berichtete, dass Perplexity AI, ein von der Familie Jeff Bezos und Nvidia unterstütztes Startup, Inhalte von Websites scraped, die dies durch das Robots Exclusion Protocol (robots.txt) untersagt haben. Obwohl das Robots Exclusion Protocol rechtlich nicht bindend ist, sind die Nutzungsbedingungen von AWS es in der Regel schon. Ein AWS-Sprecher bestätigte gegenüber WIRED, dass AWS-Kunden sich an das robots.txt-Standard halten müssen.
Der Robots Exclusion Protocol ist ein Jahrzehnte altes Web-Standard, das durch die Platzierung einer einfachen Textdatei auf einer Domain anzeigt, welche Seiten nicht von automatisierten Bots und Crawlern besucht werden sollen. Während Unternehmen, die Scraper einsetzen, diesen Standard ignorieren können, halten sich die meisten traditionell daran. Das Problem entstand, als festgestellt wurde, dass Perplexity AI auf Inhalte von Websites zugreift, die dies untersagt hatten.
Besonders brisant wurde der Fall durch einen Bericht von Forbes am 11. Juni, in dem das Startup beschuldigt wurde, mindestens einen Artikel gestohlen zu haben. WIRED bestätigte diese Praxis und fand weitere Beweise für Scraping-Missbrauch und Plagiate durch Systeme, die mit dem AI-gestützten Such-Chatbot von Perplexity in Verbindung stehen. Laut WIRED hatte Perplexity Zugang zu einem Server mit einer unveröffentlichten IP-Adresse, der in den letzten drei Monaten Hunderte Male die Websites von Condé Nast besuchte, um Inhalte zu scrapen.
Aravind Srinivas, CEO von Perplexity, äußerte sich zunächst zu den Vorwürfen und sagte, dass die Fragen von WIRED auf einem grundlegenden Missverständnis darüber basieren, wie Perplexity und das Internet funktionieren. Er fügte hinzu, dass die beobachtete IP-Adresse von einem Drittunternehmen betrieben wird, das Web-Crawling- und Indexierungsdienste anbietet. Dieses Unternehmen wollte er jedoch aufgrund einer Geheimhaltungsvereinbarung nicht namentlich nennen.
Sara Platnick, Sprecherin von Perplexity, erklärte gegenüber WIRED, dass das Unternehmen auf die Anfragen von Amazon reagiert habe und die Untersuchung als Standardverfahren charakterisierte. Platnick betonte, dass Perplexity seine Operationen nicht in Reaktion auf die Bedenken von Amazon geändert habe.
Die Untersuchung von Amazon gegen Perplexity AI wirft wichtige Fragen zur Ethik und den rechtlichen Rahmenbedingungen für die Nutzung von Web-Inhalten durch AI-Unternehmen auf. Jason Kint, CEO von Digital Content Next, einer Handelsvereinigung für die digitale Inhaltsindustrie, äußerte sich besorgt darüber, dass Perplexity gegen Prinzipien verstoßen könnte, die letztes Jahr zur Verhinderung potenzieller Urheberrechtsverletzungen durch generative AI aufgestellt wurden.
„Standardmäßig sollten AI-Unternehmen davon ausgehen, dass sie kein Recht haben, Inhalte von Verlagen ohne Erlaubnis zu nehmen und wiederzuverwenden“, sagte Kint. Wenn Perplexity gegen Nutzungsbedingungen oder robots.txt verstößt, fügte er hinzu, „sollten die Alarmglocken schrillen, dass etwas Ungehöriges vor sich geht.“
Die laufende Untersuchung von Amazon gegen Perplexity AI könnte weitreichende Auswirkungen auf die Technologiebranche und insbesondere auf die Nutzung von AI in der digitalen Inhaltsbereitstellung haben. Dieser Fall unterstreicht die Notwendigkeit klarer Richtlinien und ethischer Standards für den Umgang mit digitalen Inhalten im Zeitalter der künstlichen Intelligenz.
- https://www.wired.com/story/aws-perplexity-bot-scraping-investigation/
- https://slashdot.org/story/24/06/20/1224254/perplexity-ai-faces-scrutiny-over-web-scraping-and-chatbot-accuracy
- https://ca.news.yahoo.com/perplexity-ai-drama-explained-60-215140552.html
- https://newsletterss.com/post/2iAMMaVt41ujtD6DsaOHyMfMI0k/rss
- https://www.linkedin.com/posts/emangholami_marketing-advertising-ai-activity-7056492625113022465-g-b4
- https://www.aiaaic.org/aiaaic-repository
- https://www.threads.net/@wired?hl=de
- https://arxiv.org/html/2401.05749v2
- https://www.aiaaic.org/
- https://par.nsf.gov/servlets/purl/10321091