COIG-P: Fortschritte in der Entwicklung chinesischer Präferenzdatensätze

Kategorien:
No items found.
Freigegeben:
April 10, 2025

Artikel jetzt als Podcast anhören

COIG-P: Ein Neuer Maßstab für Chinesische Präferenzdatensätze

Die Entwicklung großer Sprachmodelle (LLMs) schreitet rasant voran, und die Ausrichtung dieser Modelle an menschlichen Werten und Präferenzen ist entscheidend für ihren erfolgreichen Einsatz. Im Bereich der chinesischen Sprachverarbeitung gab es bisher jedoch Einschränkungen hinsichtlich der verfügbaren Datensätze für das Training solcher Modelle. Diese Lücke schließt nun COIG-P (Chinese Open Instruction Generalist - Preference), ein neuer, umfangreicher und qualitativ hochwertiger Datensatz für chinesische Präferenzen.

Herausforderungen und Lösungsansätze

Bisherige chinesische Präferenzdatensätze litten unter verschiedenen Problemen: geringer Umfang, eingeschränkte Themenvielfalt und mangelnde Validierung der Daten. Zudem war die Erstellung solcher Datensätze aufgrund des hohen Aufwands für menschliche Annotationen nur begrenzt skalierbar. COIG-P adressiert diese Herausforderungen mit einem innovativen Ansatz: einer vollständig automatisierten, LLM-basierten Pipeline zur Datensatzerstellung.

Für COIG-P wurden zunächst 92.000 hochwertige chinesische Suchanfragen gesammelt und sorgfältig gefiltert. Anschließend generierten 15 führende LLMs Antwortpaare im Chosen-Rejected-Format, wobei jeweils eine bevorzugte und eine abgelehnte Antwort präsentiert wurden. Diese Paare wurden dann automatisch bewertet, ohne menschliches Eingreifen.

Umfang und Struktur von COIG-P

COIG-P umfasst 1.009.000 chinesische Präferenzpaare, die sechs verschiedene Bereiche abdecken: Chat, Code, Mathematik, Logik, Romane und Rollenspiele. Diese breite Themenvielfalt ermöglicht ein umfassendes Training von LLMs und verbessert deren Fähigkeit, auf unterschiedliche Anfragen adäquat zu reagieren.

Das Chinesische Belohnungsmodell (CRM) und CRBench

Um den Aufwand für die Bewertung von Antwortpaaren durch LLMs zu reduzieren, entwickelten die Forscher ein 8 Milliarden Parameter großes Chinesisches Belohnungsmodell (CRM). Zusätzlich wurde ein chinesischer Belohnungs-Benchmark (CRBench) erstellt, um die Leistung des CRM zu evaluieren. Tests mit AlignBench zeigen, dass COIG-P deutlich bessere Ergebnisse liefert als andere chinesische Präferenzdatensätze und die Leistung von Modellen wie Qwen2/2.5 und Infinity-Instruct-3M-0625 um 2% bis 12% verbessert.

Evaluierung und Ergebnisse

Die Ergebnisse auf CRBench belegen die starke und robuste Bewertungsfähigkeit des CRM. In Experimenten wurde das CRM verwendet, um minderwertige Antwortpaare in einem Testdatensatz von COIG-P zu identifizieren. Dabei zeigte sich, dass das CRM in seiner Effizienz und Kosteneffektivität vergleichbar mit GPT-4o ist.

Ausblick und Bedeutung

COIG-P stellt einen wichtigen Fortschritt im Bereich der chinesischen Sprachverarbeitung dar. Der Datensatz und das zugehörige Belohnungsmodell bieten Entwicklern wertvolle Ressourcen für das Training und die Verbesserung von LLMs. Die automatisierte Erstellung von COIG-P eröffnet zudem neue Möglichkeiten für die Skalierung und Diversifizierung von Präferenzdatensätzen in der Zukunft.

Bibliographie: http://arxiv.org/abs/2504.05535 https://paperreading.club/page?id=298262 https://arxiv.org/html/2403.18058v2 https://paperswithcode.com/dataset/cvalues https://openreview.net/pdf/e952397e21e2d9cdad0d7a2e69553a59118c09d9.pdf https://www.researchgate.net/publication/389316382_Cheems_A_Practical_Guidance_for_Building_and_Evaluating_Chinese_Reward_Models_from_Scratch https://openreview.net/attachment?id=174YRjhwKc&name=pdf https://2025.naacl.org/program/accepted_papers/ https://www.researchgate.net/publication/370071108_Chinese_Open_Instruction_Generalist_A_Preliminary_Release https://aclanthology.org/2024.acl-long.853.pdf
Was bedeutet das?

Wie können wir Ihnen heute helfen?

Das Expertenteam von Mindverse freut sich darauf, Ihnen zu helfen.