Großsprachmodelle im Spannungsfeld von Innovation und Rechtslage

Kategorien:

No items found.

Freigegeben:

Die Entwicklung und der Einsatz von Großsprachmodellen (Large Language Models, LLMs) haben in den letzten Jahren erhebliche Fortschritte gemacht und sind zu einem zentralen Element in der Diskussion um künstliche Intelligenz (KI) geworden. Diese Modelle können aufgrund ihrer Fähigkeit, menschliche Sprache zu verstehen und zu generieren, eine breite Palette von Anwendungen unterstützen, von der Texterzeugung über Übersetzungen bis hin zur Beantwortung von Fragen. Allerdings werfen LLMs auch Fragen hinsichtlich des Datenschutzes und des Urheberrechts auf.

LLMs werden mit großen Mengen an Textdaten trainiert, um die Struktur der Sprache zu erlernen und Kontext zu verstehen. Die Qualität und Vielfalt der Trainingsdaten sind entscheidend für die Leistungsfähigkeit der Modelle. Eine Herausforderung besteht darin, dass diese Daten möglicherweise urheberrechtlich geschützte Inhalte enthalten, was zu rechtlichen und ethischen Problemen führen kann. Urheberrechtsverletzungen können auftreten, wenn ein LLM Inhalte generiert, die zu nahe an den Originaltexten liegen, die es während des Trainings "gelesen" hat.

Die rechtliche Landschaft im Zusammenhang mit LLMs und Urheberrecht ist komplex und entwickelt sich ständig weiter. In Deutschland beispielsweise schützt das Urheberrechtsgesetz persönliche geistige Schöpfungen. Es entsteht die Frage, ob und wann von einem LLM generierte Texte als solche Schöpfungen angesehen werden und wer gegebenenfalls als Urheber gilt. Eine Schlüsselrolle spielt dabei die menschliche Kreativität: Nur wenn ein menschlicher Autor die notwendige Schöpfungshöhe erreicht, kann der Text urheberrechtlich geschützt werden. Bei automatisch generierten Texten ist dies umstritten, da die Modelle zwar komplexe Berechnungen durchführen, aber nicht kreativ im Sinne des Gesetzes sind.

Die Verwendung von urheberrechtlich geschützten Werken zur Trainierung von LLMs bewegt sich in einer Grauzone. Seit 2021 erlaubt das deutsche Urheberrechtsgesetz im § 44b Abs. 2 UrhG die Vervielfältigung von rechtmäßig zugänglichen Werken für Zwecke des Text- und Data-Minings, solange die Daten nach Abschluss des Mining-Prozesses gelöscht werden. Dies könnte auch die Verwendung von Daten für das Training von KI-Systemen einschließen, jedoch gibt es bisher keine eindeutige Rechtsprechung zu dieser Frage.

Ein weiteres Problem ist die Identifizierung von urheberrechtlich geschütztem Material im Trainingsdatensatz eines LLM. Forscher haben Methoden wie DE-COP entwickelt, um zu überprüfen, ob urheberrechtlich geschützte Inhalte im Training eines Sprachmodells verwendet wurden. DE-COP verwendet Multiple-Choice-Fragen, um zu ermitteln, ob ein bestimmtes Buch im Training berücksichtigt wurde, indem die Leistung des Modells bei der Identifizierung wörtlicher Auszüge aus dem Buch untersucht wird.

Datenschutz ist eine weitere wichtige Überlegung beim Einsatz von LLMs. Die Modelle können unbeabsichtigt persönliche oder sensible Informationen speichern und offenlegen, die in den Trainingsdaten vorhanden waren. Dies birgt Risiken für die Privatsphäre und kann gegen Datenschutzvorschriften wie die DSGVO verstoßen. Methoden wie das maschinelle Vergessen (machine unlearning) sind Gegenstand aktueller Forschung und könnten eine Möglichkeit bieten, die Auswirkungen solcher Datenschutzverletzungen zu minimieren.

Der Einsatz von LLMs in Unternehmen und anderen Organisationen erfordert daher eine sorgfältige Prüfung der rechtlichen Rahmenbedingungen und möglicher Risiken. Neben Urheberrechtsfragen müssen Unternehmen auch Datenschutzbestimmungen beachten und sicherstellen, dass keine sensiblen Daten durch die Nutzung von LLMs kompromittiert werden. Weiterhin müssen sie Strategien entwickeln, um mit den Herausforderungen umzugehen, die sich aus der Natur der LLMs als Black-Box-Modelle ergeben, bei denen der interne Verarbeitungsprozess oft undurchsichtig ist.

Die Zukunft der LLMs hängt davon ab, wie Gesetzgeber, Gerichte und die KI-Community diese und andere Fragen angehen. Es ist wahrscheinlich, dass zusätzliche Richtlinien und Gesetze erforderlich sein werden, um den sicheren und ethischen Einsatz dieser mächtigen Technologie zu gewährleisten. Die Forschung in diesem Bereich wird weiterhin von entscheidender Bedeutung sein, um innovative Lösungen für die durch LLMs aufgeworfenen Probleme zu entwickeln.

Quellen:
- KPMG Law (2024). AI and copyright – what is permitted when using LLMs?
- Neel, S., & Chang, P. W. (2024). Privacy Issues in Large Language Models: A Survey. arXiv preprint arXiv:2312.06717v2.
- EDPS (European Data Protection Supervisor). Large language models (LLM).
- Duarte, A. V., Zhao, X., Oliveira, A. L., & Li, L. (2024). DE-COP: Detecting Copyrighted Content in Language Models Training Data. arXiv preprint arXiv:2402.09910v1.
- Stack Overflow Blog (2023). Retrieval augmented generation: Keeping LLMs relevant and current.

Was bedeutet das?

No items found.