Webseiten lehnen Apples KI Datenzugriff ab: Ein neuer Umgang mit Nutzerdaten?

Kategorien:
No items found.
Freigegeben:
August 30, 2024

Große Websites verweigern Apples AI-Scraping: Ein Wendepunkt in der Datenverwendung?

Im Sommer dieses Jahres hat Apple Webseiten mehr Kontrolle darüber gegeben, ob das Unternehmen ihre Daten zur Schulung seiner KI-Modelle verwenden darf. Große Verlage und Plattformen wie die New York Times und Facebook haben sich bereits gegen diese Praxis entschieden.

Die Einführung von Applebot-Extended

Weniger als drei Monate nach der leisen Einführung eines Tools für Verlage, um sich von Apples KI-Schulung abzumelden, haben eine Reihe prominenter Nachrichtenagenturen und sozialer Plattformen das Angebot angenommen. Zu den Unternehmen, die sich gegen die Nutzung ihrer Daten durch Apple ausgesprochen haben, gehören unter anderem Facebook, Instagram, Craigslist, Tumblr, The New York Times, The Financial Times, The Atlantic, Vox Media, das USA Today Netzwerk und Condé Nast, das Mutterunternehmen von WIRED.

Applebot-Extended ist eine Erweiterung des Web-Crawling-Bots Applebot, die es Website-Besitzern speziell ermöglicht, Apple mitzuteilen, dass ihre Daten nicht zur KI-Schulung verwendet werden sollen. Apple bezeichnet dies als "Kontrolle der Datennutzung" in einem Blogbeitrag, der erklärt, wie das Tool funktioniert. Der ursprüngliche Applebot, der 2015 angekündigt wurde, durchsuchte das Internet, um Apples Suchprodukte wie Siri und Spotlight zu unterstützen. Kürzlich hat sich jedoch der Zweck von Applebot erweitert: Die gesammelten Daten können auch zur Schulung der grundlegenden Modelle verwendet werden, die Apple für seine KI-Bemühungen erstellt hat.

Reaktionen der Verlage

Applebot-Extended ist eine Möglichkeit, die Rechte von Verlagen zu respektieren, sagt Apple-Sprecherin Nadine Haija. Es verhindert nicht, dass der ursprüngliche Applebot die Website durchsucht, was die Darstellung des Inhalts dieser Website in Apples Suchprodukten beeinflussen würde, sondern verhindert, dass diese Daten zur Schulung von Apples großen Sprachmodellen und anderen generativen KI-Projekten verwendet werden. Es ist im Wesentlichen ein Bot, um anzupassen, wie ein anderer Bot funktioniert.

Verlage können Applebot-Extended blockieren, indem sie eine Textdatei auf ihren Websites aktualisieren, die als Robots Exclusion Protocol oder robots.txt bekannt ist. Diese Datei regelt seit Jahrzehnten, wie Bots das Web durchsuchen – und wie die Bots selbst, steht sie nun im Zentrum eines größeren Kampfes darüber, wie KI geschult wird. Viele Verlage haben ihre robots.txt-Dateien bereits aktualisiert, um KI-Bots von OpenAI, Anthropic und anderen großen KI-Anbietern zu blockieren.

Analyse und Statistiken

Applebot-Extended ist so neu, dass relativ wenige Websites es bisher blockieren. Eine Analyse des in Ontario, Kanada, ansässigen KI-Erkennungs-Startups Originality AI ergab, dass etwa 7 Prozent der 1.000 am meisten besuchten Websites – hauptsächlich Nachrichten- und Medienseiten – Applebot-Extended blockieren. Diese Woche ergab eine Analyse des KI-Agenten-Watchdog-Dienstes Dark Visitors, dass etwa 6 Prozent der 1.000 am meisten besuchten Websites den Bot blockierten. Diese Bemühungen deuten darauf hin, dass die überwiegende Mehrheit der Website-Besitzer entweder keine Einwände gegen Apples KI-Schulungspraktiken hat oder einfach nicht über die Möglichkeit informiert ist, Applebot-Extended zu blockieren.

In einer separaten Analyse fand der Datenjournalist Ben Welsh heraus, dass etwas mehr als ein Viertel der von ihm untersuchten Nachrichtenwebsites (294 von 1.167 hauptsächlich englischsprachigen, in den USA ansässigen Publikationen) Applebot-Extended blockieren. Im Vergleich dazu blockieren 53 Prozent der Nachrichtenwebsites in seiner Stichprobe den Bot von OpenAI. Google führte letzten September seinen eigenen spezifischen KI-Bot, Google-Extended, ein, der von fast 43 Prozent dieser Seiten blockiert wird, ein Zeichen dafür, dass Applebot-Extended möglicherweise noch unter dem Radar fliegt. Wie Welsh gegenüber WIRED erklärte, bewegt sich die Zahl jedoch seit Beginn seiner Untersuchungen „allmählich nach oben“.

Strategische Entscheidungen und Geschäftsstrategien

Einige Verlage haben explizit darauf hingewiesen, dass sie KI-Scraping-Tools blockieren, weil sie derzeit keine Partnerschaften mit deren Betreibern haben. „Wir blockieren Applebot-Extended auf allen Webseiten von Vox Media, wie wir es auch mit vielen anderen KI-Scraping-Tools tun, wenn wir keine kommerzielle Vereinbarung mit der anderen Partei haben“, sagt Lauren Starke, Senior Vice President of Communications bei Vox Media. „Wir glauben daran, den Wert unserer veröffentlichten Arbeiten zu schützen.“

Andere beschreiben ihre Beweggründe nur vage, aber unverblümt. „Das Team hat zu diesem Zeitpunkt entschieden, dass es keinen Nutzen darin sieht, Applebot-Extended den Zugriff auf unsere Inhalte zu erlauben“, sagt Gannetts Chief Communications Officer Lark-Marie Antón.

Inzwischen ist die New York Times, die OpenAI wegen Urheberrechtsverletzung verklagt, kritisch gegenüber der Opt-out-Natur von Applebot-Extended und ähnlichen Tools. „Wie das Gesetz und die eigenen Nutzungsbedingungen der Times klarstellen, ist das Scraping oder die kommerzielle Nutzung unserer Inhalte ohne unsere vorherige schriftliche Genehmigung verboten“, sagt Charlie Stadtlander, Direktor der externen Kommunikation der NYT, und fügt hinzu, dass die Times kontinuierlich nicht autorisierte Bots zu ihrer Blockliste hinzufügen wird, sobald sie sie entdeckt. „Wichtig ist, dass das Urheberrecht gilt, ob technische Sperrmaßnahmen vorhanden sind oder nicht. Der Diebstahl urheberrechtlich geschützten Materials ist nichts, wovon sich die Inhalteigentümer abmelden müssen.“

Ausblick und Schlussfolgerung

Es bleibt unklar, ob Apple den Verlagen näher kommt, um Vereinbarungen zu treffen. Wenn oder falls dies geschieht, könnten die Konsequenzen jeglicher Datenlizenzierungs- oder Weitergabevereinbarungen bereits in robots.txt-Dateien sichtbar sein, noch bevor sie öffentlich bekannt gegeben werden.

„Ich finde es faszinierend, dass eine der folgenreichsten Technologien unserer Zeit entwickelt wird und der Kampf um ihre Schulungsdaten auf dieser wirklich obskuren Textdatei öffentlich ausgetragen wird, sodass wir alle es sehen können“, sagt Jon Gillham, Gründer von Originality AI.

Bibliographie

- https://tidbits.com/2024/07/08/why-ai-web-scraping-mostly-doesnt-bother-me/ - https://www.macworld.com/article/2375909/ai-is-a-questionable-technology.html - https://www.engadget.com/artists-criticize-apples-lack-of-transparency-around-apple-intelligence-data-131250021.html - https://futurism.com/the-byte/youtubers-apple-anthropic-data-ai - https://www.macrumors.com/2024/07/18/apple-intelligence-not-trained-on-youtube/ - https://www.reddit.com/r/technology/comments/1e4s9lv/apple_trained_ai_models_on_youtube_content/ - https://www.cbc.ca/news/business/elon-musk-apple-ai-privacy-chatgpt-1.7231671 - https://techcrunch.com/2024/06/11/apples-ai-apple-intelligence-is-boring-and-practical-thats-why-it-works/ - https://blog.cloudflare.com/declaring-your-aindependence-block-ai-bots-scrapers-and-crawlers-with-a-single-click
Was bedeutet das?