Mit der Veröffentlichung von GPT-4o, dem neuesten Sprachmodell von OpenAI, wurde eine Vielzahl von Verbesserungen und neuen Funktionen eingeführt. Trotz der allgemeinen Begeisterung stellen sich einige chinesische Nutzer die Frage, warum die Qualität der Antworten des Modells schlechter geworden ist. Die Ursache für dieses Problem liegt in den Trainingsdaten des Tokenizers, der in der neuen Version von GPT-4o verwendet wird.
Kurz nach der Einführung von GPT-4o bemerkten einige chinesische Muttersprachler, dass die Ergebnisse des neuesten Chatbot-Modells von OpenAI teilweise minderwertig waren. Eine Untersuchung durch Tianle Cai, einen Doktoranden der Princeton University, der sich mit der Effizienz großer Sprachmodelle beschäftigt, brachte das Problem ans Licht. Cai entdeckte, dass die öffentliche Token-Bibliothek von GPT-4o mit problematischen Daten trainiert wurde. In der Liste der 100 längsten chinesischsprachigen Token fanden sich zahlreiche Nonsens-, Spam- und sogar pornografische Begriffe.
Language-Modelle wie GPT-4o verarbeiten Texte nicht in Wörtern, sondern in sogenannten Token. Token sind eindeutige Einheiten in einem Satz, die eine konsistente und signifikante Bedeutung haben sollten. Sie umfassen Wörter, Suffixe, allgemein verwendete Ausdrücke, Namen und mehr. Ein effizienter Tokenizer erlaubt es dem Modell, Sätze schneller zu „lesen“ und reduziert den Rechenaufwand, was die Generierung von Antworten kostengünstiger macht.
Im chinesischsprachigen Tokenizer fanden sich bei den längsten 100 Ergebnissen nur drei aus der Alltagssprache. Die restlichen Token bestanden aus bedeutungslosen Phrasen oder Begriffen, die im Zusammenhang mit verbotenem Glücksspiel oder Pornografie stehen. Das längste Token, das 10,5 chinesische Zeichen umfasst, bedeutet wörtlich übersetzt „_kostenloses japanisches Pornovideo zum Anschauen“. Dadurch kann der Chatbot die Bedeutung dieser Token nicht erfassen und liefert oft unpassende oder halluzinierte Antworten.
Der neue Tokenizer von GPT-4o soll insbesondere nicht-englische Sprachen besser unterstützen. Insgesamt verfügt der Tokenizer über 200.000 Token, wovon etwa 25 Prozent nicht-englische Sprachen betreffen. Zu den wichtigsten Sprachen neben Englisch zählen Russisch, Arabisch und Vietnamesisch. In diesen Sprachen scheint der Tokenizer weitgehend korrekt zu arbeiten, da die Token aktuelle Debatten und gängige Begriffe widerspiegeln.
Forscher wie Deedy Das, ein KI-Investor bei Menlo Ventures, vermuten, dass die Qualität der Trainingsdaten in den jeweiligen Sprachen eine Rolle spielt. Während in Hindi und Bengali hauptsächlich Nachrichtenartikel verwendet werden, gibt es im chinesischen Internet viele Spam-Bots und Porno-Websites, die die Trainingsdaten verschmutzen. Dies führt zu einer geringeren Qualität der Token in chinesischer Sprache.
Die problematischen Token in GPT-4o haben nicht nur die Qualität der Ergebnisse verschlechtert, sondern auch die Sicherheitsvorkehrungen von OpenAI unterlaufen. Forscher konnten das Modell dazu bringen, unsichere Antworten zu generieren oder die Sicherheitsvorkehrungen zu umgehen. OpenAI hat bisher keine Stellungnahme zu diesem Problem abgegeben.
Die Veröffentlichung von GPT-4o sollte eine Verbesserung der Sprachverarbeitung in nicht-englischen Sprachen bringen. Doch die problematischen Trainingsdaten des Tokenizers haben insbesondere in der chinesischen Sprache zu erheblichen Problemen geführt. Es bleibt abzuwarten, wie OpenAI auf diese Herausforderungen reagieren wird und welche Maßnahmen ergriffen werden, um die Qualität und Sicherheit der Modelle zu gewährleisten.
Bibliographie
- https://t3n.de/news/merkwuerdige-gpt-4o-antworten-warum-tokenizer-trainingsdaten-fuer-china-voller-spam-und-porno-ist-1625518/
- https://t3n.de/archive/10-07-2005/
- https://www.technologyreview.com/2024/05/20/1092676/the-download-gpt-4os-polluted-chinese-training-data-and-astronomys-ai-challenge/
- https://www.linkedin.com/posts/zeyi-yang_gpt-4os-chinese-token-training-data-is-polluted-activity-7197385178967670784-XmRL
- https://www.linkedin.com/posts/alexandercwatson_gpt-4os-chinese-token-training-data-is-polluted-activity-7198345715666857984-76Pz