Baidu verstärkt Datenschutzmaßnahmen gegen Google und Bing im Zeitalter der KI-Entwicklung

Kategorien:
No items found.
Freigegeben:
August 30, 2024
Mindverse News

Baidu Blockiert Google und Bing vor dem Scraping von Inhalten zur KI-Training

Der chinesische Internetsuchgigant Baidu hat kürzlich eine bedeutende Änderung in seiner Strategie zur Verwaltung von Online-Inhalten vorgenommen. Das Unternehmen hat die robots.txt-Datei seiner Wikipedia-ähnlichen Plattform, Baidu Baike, aktualisiert, um den Zugriff der Suchmaschinen-Crawler von Google und Bing zu blockieren. Diese Maßnahme tritt zu einem Zeitpunkt in Kraft, in dem die Nachfrage nach umfangreichen Datensätzen zur Schulung und Entwicklung von Künstlicher Intelligenz (KI) zunimmt.

Details der Implementierung

Laut Aufzeichnungen der Internet-Archiv-Dienste Wayback Machine wurde die Änderung am 8. August 2024 vorgenommen. Die aktualisierte robots.txt-Datei verbietet nun ausdrücklich den Googlebot- und Bingbot-Crawlern, Inhalte von Baidu Baike zu indexieren. Zuvor durften Google und Bing die nahezu 30 Millionen Einträge der Plattform durchsuchen und indexieren, wobei nur bestimmte Bereiche der Website gesperrt waren.

Hintergrund der Entscheidung

Baidu Baike, das im April 2006 gestartet wurde, hat sich zur größten chinesischsprachigen Online-Enzyklopädie entwickelt. Mit über 25,54 Millionen Einträgen und 7,5 Millionen Editoren bis Februar 2022 übertrifft es die chinesische Version von Wikipedia, die derzeit 1,43 Millionen Einträge hat, bei weitem.

Die Entscheidung von Baidu, den Zugriff zu beschränken, erfolgt zu einer Zeit, in der große Technologieunternehmen zunehmend darauf abzielen, große Mengen an Daten zu erwerben, um ihre KI-Modelle und -Anwendungen zu verbessern. Seit der Veröffentlichung von OpenAIs ChatGPT am 30. November 2022 hat ein globales Wettrennen in der Entwicklung generativer KI begonnen.

Vergleich mit anderen Plattformen

Baidus Schritt folgt ähnlichen Maßnahmen, die von anderen Online-Plattformen ergriffen wurden. Im Juli 2024 blockierte Reddit, die US-amerikanische Social-News-Aggregations- und Diskussions-Website, verschiedene Suchmaschinen daran, seine Inhalte zu indexieren, mit Ausnahme von Google. Diese Ausnahme ergibt sich aus einer Multimillionen-Dollar-Vereinbarung zwischen Reddit und Google, die dem Tech-Giganten das Recht einräumt, die Plattform von Reddit für KI-Trainingsdaten zu durchforsten.

Sogar der Tech-Gigant Microsoft hat Schritte unternommen, um seine Datenbestände zu schützen. Im Jahr 2023 drohte das Unternehmen Berichten zufolge, den Zugang zu seinen Internet-Suchdaten zu widerrufen, die es an konkurrierende Suchmaschinenbetreiber lizenziert, falls diese Unternehmen die Daten weiterhin für ihre Chatbots und andere generative KI-Dienste verwenden.

Strategische Bedeutung von Daten

Die Entscheidung von Baidu, den Zugriff auf seine Enzyklopädie-Inhalte zu blockieren, unterstreicht die strategische Bedeutung von qualitativ hochwertigen, kuratierten Inhalten im Zeitalter der KI. Mit seinem umfangreichen Repository an chinesischsprachigen Informationen stellt Baidu Baike eine wertvolle Ressource für die Schulung von KI-Modellen dar, insbesondere für solche, die sich auf die Verarbeitung der chinesischen Sprache und das kulturelle Verständnis konzentrieren.

Es ist erwähnenswert, dass Baidu trotz der Beschränkung des Zugriffs auf seine Enzyklopädie-Inhalte selbst stark in die KI-Entwicklung investiert ist. Das Unternehmen arbeitet an seinen eigenen großen Sprachmodellen und KI-Anwendungen und konkurriert sowohl mit inländischen als auch internationalen Tech-Giganten im sich schnell entwickelnden KI-Landschaft.

Folgen der Entscheidung

Die Auswirkungen der Entscheidung von Baidu gehen über die unmittelbaren Auswirkungen auf Suchergebnisse hinaus. Sie wirft Fragen über die Zukunft des offenen Zugriffs auf Informationen im Internet und die potenzielle Fragmentierung der globalen Wissensbasis entlang von Unternehmens- oder nationalen Linien auf. Da KI weiterhin technologische Fortschritte und wirtschaftlichen Wettbewerb antreibt, wird die Kontrolle über große, qualitativ hochwertige Datensätze wahrscheinlich zu einem zunehmend umstrittenen Thema.

Trotz der jüngsten Änderungen an der robots.txt-Datei von Baidu Baike ergab eine am 25. August 2024 durchgeführte Umfrage, dass viele Einträge des Dienstes weiterhin in Google- und Bing-Suchergebnissen erscheinen. Dies deutet darauf hin, dass die vollständigen Auswirkungen der Beschränkungen von Baidu einige Zeit in Anspruch nehmen könnten, da Suchmaschinen typischerweise zwischengespeicherte Inhalte für einen Zeitraum nach der Aufhebung des Zugriffs beibehalten.

Wichtige Fakten

- Baidu aktualisierte seine robots.txt-Datei am 8. August 2024, um Google- und Bing-Crawler daran zu hindern, Baidu-Baike-Inhalte zu indexieren.
- Baidu Baike enthält im August 2024 fast 30 Millionen Einträge.
- Im Februar 2022 hatte Baidu Baike über 25,54 Millionen Einträge und 7,5 Millionen Editoren.
- Die chinesische Version von Wikipedia hat derzeit 1,43 Millionen Einträge.
- Reddit blockierte im Juli 2024 verschiedene Suchmaschinen, außer Google, daran, seine Inhalte zu indexieren.
- OpenAI sicherte sich im Juni 2024 den Zugang zu den archivierten Inhalten des Time Magazins.
- ChatGPT wurde am 30. November 2022 veröffentlicht, was das Rennen um die KI-Entwicklung und Datenerfassung intensivierte.

Schlussfolgerung

Die Entscheidung von Baidu, Google und Bing vom Scraping seiner Inhalte auszuschließen, spiegelt die wachsende Bedeutung von Daten in der Ära der Künstlichen Intelligenz wider. Da Unternehmen weiterhin stark in die Entwicklung von KI investieren, ist der Wert großer, kuratierter Datensätze erheblich gestiegen. Dies hat zu einer Verschiebung in der Art und Weise geführt, wie Online-Plattformen den Zugang zu ihren Inhalten verwalten, wobei viele den Zugang zu ihren Daten einschränken oder monetarisieren.

Mit der weiteren Entwicklung der KI-Industrie ist es wahrscheinlich, dass mehr Unternehmen ihre Datenfreigaberichtlinien überdenken und möglicherweise weitere Änderungen daran vornehmen werden, wie Informationen im Internet indexiert und abgerufen werden.

Bibliographie

- https://finance.yahoo.com/news/baidu-blocks-google-bing-scraping-093000944.html
- https://ppc.land/baidu-blocks-google-and-bing-from-indexing-baike-content-amid-ai-data-demands/?srsltid=AfmBOopWbV2bENUtKRUsOIrGtDXXE0z-2WeVLMKdailXwgY-pA0XFnEx
- https://www.msn.com/en-xl/news/other/baidu-blocks-google-bing-from-scraping-content-amid-demand-for-data-used-on-ai-projects/ar-AA1pkUcS?ocid=finance-verthp-feeds
- https://www.biz360.tv/baidu-blocks-google-bing-scraping-content-amid-demand-for-data-used-on-ai-projects
- https://techtwisted.com/news/baidu-restricts-google-and-bing-from-accessing-content-amid-ai-data-needs
- https://www.reddit.com/r/technews/comments/1ezx9bx/baidu_blocks_google_bing_from_scraping_content
- https://www.reddit.com/r/technology/comments/1ezv5y4/baidu_blocks_google_bing_from_scraping_content
- https://www.livarava.com/finance/p/5734236
- https://forums.classicpress.net/t/complications-of-ai-training-any-solution/5280
- https://www.linkedin.com/pulse/openai-block-api-access-china-developers-bytedances-5nm-tony-peng-di9fc
Was bedeutet das?