In den letzten Jahren hat sich die Nutzung von Künstlicher Intelligenz (KI) rasant entwickelt. Diese Technologie ist jedoch nicht ohne Kontroversen, insbesondere wenn es um die Daten geht, die zur Schulung von KI-Modellen verwendet werden. Ein zentraler Punkt dieser Debatte ist der gemeinnützige Webarchivierungsdienst Common Crawl, der seit langem Forschern als wertvolles Werkzeug dient. Doch jetzt steht Common Crawl im Zentrum einer Auseinandersetzung zwischen Medienverlagen und KI-Unternehmen.
Common Crawl, gegründet 2007 in San Francisco, ist bekannt für seine umfangreichen Web-Datensätze, die frei zugänglich sind. Diese Datensätze werden von vielen Text-basierten generativen KI-Tools genutzt, um Modelle zu trainieren. Die Organisation hat sich über die Jahre als unverzichtbare Ressource für Forscher und Entwickler erwiesen.
Dänische Medienverlage haben kürzlich gefordert, dass Common Crawl ihre Artikel aus den Datensätzen entfernt und das Crawlen ihrer Websites einstellt. Diese Forderung kam inmitten wachsender Empörung darüber auf, wie KI-Unternehmen wie OpenAI urheberrechtlich geschütztes Material verwenden. Diese Debatte wird auch durch ähnliche Forderungen von anderen großen Medienhäusern wie der New York Times angeheizt, die bereits Klagen gegen OpenAI eingereicht haben.
- Medienverlage sehen ihre Inhalte durch KI-Modelle ohne angemessene Entschädigung genutzt.
- Common Crawl hat im Jahr 2023 eine Zunahme von Datenlöschungsanfragen verzeichnet.
- Über 44 % der führenden globalen Nachrichten- und Medienseiten blockieren mittlerweile den Crawler von Common Crawl, CCBot.
Die schnelle Einhaltung der Forderungen durch Common Crawl ist eine Reaktion auf die realen Herausforderungen, denen sich eine kleine gemeinnützige Organisation gegenübersieht. Dies bedeutet jedoch nicht notwendigerweise eine ideologische Zustimmung. Rich Skrenta, der Geschäftsführer von Common Crawl, sieht dies als existenzielle Bedrohung für das offene Internet.
- Jeff Jarvis, Professor für Journalismus, betont die Bedeutung von Common Crawl für die akademische Forschung.
- Stefan Baack von der Mozilla Foundation hebt hervor, dass Common Crawl ursprünglich nicht für die KI-Ära entwickelt wurde.
Die Debatte um Common Crawl ist Teil einer größeren Auseinandersetzung über Urheberrecht und das offene Web. Es gibt zahlreiche Klagen wegen Urheberrechtsverletzungen gegen führende KI-Unternehmen. Aktivisten fordern auch gesetzliche Regelungen, die KI-Unternehmen zwingen, für die Nutzung von Daten zu zahlen. Diese Entwicklungen könnten sich erheblich auf die zukünftige Forschungslandschaft auswirken.
Neben rechtlichen Schritten werden auch technologische Lösungen entwickelt, um Künstler und Kreative zu schützen. Ein Beispiel ist das Tool „Nightshade“, das Künstlern ermöglicht, ihre Werke durch unsichtbare Pixel zu „vergiften“, um ihre unautorisierte Nutzung durch KI-Modelle zu verhindern.
Wenn genügend Verlage und Medienhäuser Common Crawl blockieren, könnte dies erhebliche Auswirkungen auf die akademische Forschung und kleinere Projekte haben. Dies könnte paradoxerweise führende KI-Unternehmen wie OpenAI, die über die Ressourcen verfügen, das Web selbst zu crawlen, weiter stärken.
Die aktuelle Debatte um Common Crawl und die Nutzung von Daten für KI-Modelle ist ein komplexes und vielschichtiges Thema. Es wird deutlich, dass ein ausgewogenes Verhältnis zwischen dem Schutz geistigen Eigentums und der Förderung von Innovationen gefunden werden muss. Die kommenden Jahre werden entscheidend sein, um diese Balance zu erreichen und die Zukunft der KI-Entwicklung zu gestalten.
Bibliographie
https://www.wired.com/story/the-fight-against-ai-comes-to-a-foundational-data-set/
https://medium.com/@basecamp-research/why-were-so-excited-about-the-arc-s-new-evo-model-6a94e86e2c56
https://blogs.microsoft.com/on-the-issues/2024/02/26/microsoft-ai-access-principles-responsible-mobile-world-congress/
https://www.artnews.com/art-news/news/new-data-poisoning-tool-enables-artists-to-fight-back-against-image-generating-ai-companies-1234684663/
https://assets.publishing.service.gov.uk/media/661e5a4c7469198185bd3d62/AI_Foundation_Models_technical_update_report.pdf
https://thenewstack.io/proprietary-ai-models-are-dead-long-live-proprietary-ai-models/
https://2022.internethealthreport.org/facts/
https://research.ibm.com/blog/weather-climate-foundation-model
https://ai.gov/wp-content/uploads/2023/09/FAQs-on-Foundation-Models-and-Generative-AI.pdf