In einer Zeit, in der künstliche Intelligenz (KI) in immer mehr Bereichen des täglichen Lebens Einzug hält, wird die Frage nach dem Schutz persönlicher Daten vor ungewollter Verwendung zur Schulung von KI-Modellen immer drängender. In diesem Zusammenhang hat das Unternehmen Meta kürzlich ein Formular namens "Generative AI Data Subject Rights" eingeführt, mit dem Nutzer die Verwendung ihrer Daten durch Drittanbieter einschränken können. Dies betrifft jedoch nicht die auf Meta-Eigenschaften wie Facebook-Kommentare oder Instagram-Fotos geteilten Daten.
Die Datenerhebung für die Schulung von KI-Modellen ist eine gängige Praxis vieler Tech-Unternehmen, darunter Meta, Microsoft, OpenAI und Alphabet. Dabei werden enorme Mengen an Daten von öffentlich zugänglichen und lizenzierten Quellen verarbeitet. Während einige Firmen wie Meta öffentliche Informationen und lizenzierte Daten von anderen Anbietern sammeln, nutzen andere Ressourcen wie Common Crawl oder Datenbanken wie das Large-Scale Artificial Intelligence Open Network (LAION), das Links zu Bildern und den dazugehörigen Bildunterschriften enthält.
Ein kürzlich veröffentlichtes Statement eines Konsortiums von Datenschutzbehörden aus Ländern wie dem Vereinigten Königreich, Kanada und der Schweiz mahnte soziale Medien und Tech-Unternehmen, den Schutz personenbezogener Daten auf ihren Websites zu gewährleisten und das Datenscraping zu unterbinden. Die Erklärung erinnerte daran, dass solche Unternehmen weiterhin verschiedenen Datenschutz- und Privatsphäre-Gesetzen unterliegen.
Es gibt mehrere Möglichkeiten, wie Nutzer versuchen können, die Verwendung ihrer Daten zur KI-Schulung zu verhindern oder zu beschränken. Dazu gehört das Ausfüllen des oben genannten Formulars von Meta sowie das Setzen von digitalen Flags auf Websites, die Web-Crawler und Scraper anweisen, keine Daten zu sammeln. Allerdings ist die Befolgung dieser Anweisungen durch die Entwickler der Scraper nicht verpflichtend.
In Kalifornien und einigen anderen Bundesstaaten bieten neu verabschiedete digitale Datenschutzgesetze den Verbrauchern mehr Kontrolle über ihre personenbezogenen Daten. Einige Experten haben Werkzeuge wie Glaze entwickelt, um Bilder für KI-Modelle unlesbar zu machen, allerdings ist diese Technologie auf Bilder beschränkt, die noch nicht online veröffentlicht wurden. Für Text gibt es bisher kein ähnliches Werkzeug.
Weiterhin gibt es Ansätze, die Nutzung von Inhalten für die KI-Schulung durch spezielle meta-Tags auf Webseiten einzuschränken. So können Website-Betreiber mithilfe von robots.txt-Direktiven und meta-Tags die Indexierung durch bestimmte Bots steuern, wobei dies nicht immer lückenlos funktioniert.
Die Diskussion um den Schutz persönlicher Daten vor der Verwendung zur KI-Schulung ist ein komplexes und dynamisches Feld, in dem sich ständig neue Herausforderungen und Lösungsansätze ergeben. Es bleibt abzuwarten, wie sich die Praktiken der Unternehmen und die Möglichkeiten der Nutzer zur Kontrolle ihrer Daten weiterentwickeln werden.
Quellen:
1. CNBC: "How to stop Meta from using personal data to train generative AI models."
2. Scientific American: "Your Personal Information Is Probably Being Used to Train Generative AI Models."
3. Tech.co: "How To Stop Facebook Using Your Personal Data To Train AI."
4. LinkedIn: "How to Block AI from Scraping Your Content."
5. OpenAI: "Data Controls FAQ."
6. YouTube: Diverse Anleitungen und Diskussionen zum Datenschutz und KI.
7. Wired: "How to Stop Your Data From Being Used to Train AI."
8. Reddit und andere soziale Medien: Diskussionen und Hinweise von Nutzern zum Schutz ihrer Daten.