Große Sprachmodelle auf dem Vormarsch: Aya-Projekt revolutioniert mehrsprachige KI-Forschung

Kategorien:

No items found.

Freigegeben:

In den letzten Jahren haben große Sprachmodelle (Large Language Models, LLMs) beeindruckende Fortschritte in der Verarbeitung natürlicher Sprache (Natural Language Processing, NLP) gemacht. Insbesondere haben sie sich bei Aufgaben, die das Verstehen und Generieren von Text in einer Reihe von datenreichen Sprachen erfordern, als sehr leistungsfähig erwiesen. Trotz dieser Errungenschaften bleibt eine signifikante Herausforderung bestehen: die Unterstützung von Sprachen, die weniger online verfügbare Daten haben oder gemeinhin als "unterversorgt" gelten. Die jüngsten Entwicklungen im Bereich der LLMs zielen darauf ab, diesen Zugang zu erweitern und mehrsprachige Modelle zu schaffen, die eine breitere Palette von Sprachen abdecken können.

Ein solches Vorhaben ist das Aya-Modell von Cohere, ein feinabgestimmtes multilinguales Sprachmodell, das offen zugänglich ist und in 101 Sprachen Anweisungen folgen kann. Über die Hälfte dieser Sprachen werden als ressourcenarm eingestuft. Aya übertrifft in den meisten Aufgabenbereichen Modelle wie mT0 und BLOOMZ und deckt dabei doppelt so viele Sprachen ab. Zu den Neuerungen zählen umfangreiche Bewertungssuites, die den Stand der Technik für die mehrsprachige Evaluierung über 99 Sprachen erweitern und sowohl diskriminative als auch generative Aufgaben, Menschenevaluationen und simulierte Gewinnraten umfassen, die sowohl zurückgehaltene Aufgaben als auch Leistungen in der Verteilung abdecken. Zusätzlich wurden detaillierte Untersuchungen zur optimalen Zusammensetzung des Feinabstimmungsmixes, zur Datenbeschneidung sowie zur Toxizität, Voreingenommenheit und Sicherheit der Modelle durchgeführt.

Cohere hat damit einen wichtigen Schritt unternommen, um die Lücke zwischen ressourcenreichen und ressourcenarmen Sprachen zu schließen. In einer Zeit, in der die meisten vorhandenen Datensätze fast ausschließlich in Englisch vorliegen, stellt das Aya-Projekt einen bedeutenden Fortschritt dar, um diese Diskrepanz zu überbrücken. Das Aya-Datenset, das von fließenden Sprechern aus aller Welt kuratiert wurde, umfasst natürliche Anweisungen und deren Ausführungen in 65 Sprachen. Darüber hinaus wurde die bisher umfangreichste mehrsprachige Sammlung geschaffen, die 513 Millionen Instanzen umfasst, die durch Templatierung und Übersetzung vorhandener Datensätze in 114 Sprachen generiert wurden.

Die Aya-Initiative dient auch als wertvolles Fallbeispiel für partizipative Forschung, an der Mitarbeiter aus 119 Ländern beteiligt sind. Es wird als wertvolles Rahmenwerk für zukünftige Forschungskooperationen angesehen, die darauf abzielen, Lücken bei den Ressourcen zu schließen. Darüber hinaus ist sie beispielhaft für die Bemühungen, die Entwicklung von KI-Technologien demokratischer und inklusiver zu gestalten, indem sie den Zugang zu Sprachtechnologien für eine größere Vielfalt von Sprachen ermöglicht.

Das Aya-Projekt wurde mit Rechenleistung und Ressourcen von Cohere unterstützt, ist jedoch eine wahrhaft multinationale Initiative, die auf der Hilfe einer Gemeinschaft von Forschern, Ingenieuren, Linguisten, Sozialwissenschaftlern und lebenslangen Lernenden aus über 100 Ländern weltweit beruht. Die Beteiligung an Aya steht jedem offen, der sich leidenschaftlich für die Förderung der NLP-Forschung einsetzt und sich für die Förderung offener Wissenschaft engagiert.

Die Schaffung von Aya und dessen offener Zugang sind Schritte in Richtung einer globaleren und gerechteren KI-Forschung und -Anwendung, die Sprachen und Kulturen einbezieht, die bisher vernachlässigt wurden. Letztendlich könnte diese Initiative dazu beitragen, die Kluft zwischen Sprachgemeinschaften zu verringern und die globalen Kommunikationsmöglichkeiten zu erweitern.

Quellen:
1. Singh, S., Vargus, F., Dsouza, D., Karlsson, B. F., Mahendiran, A., Ko, W.-Y., ... & Hooker, S. (2024). Aya Dataset: An Open-Access Collection for Multilingual Instruction Tuning. arXiv preprint arXiv:2402.06619.
2. Shaham, U., Herzig, J., Aharoni, R., Szpektor, I., Tsarfaty, R., & Eyal, M. (2024). Multilingual Instruction Tuning With Just a Pinch of Multilinguality. arXiv preprint arXiv:2401.01854.
3. Cohere's Official Website. (2023). Introducing Aya: An Open Science Initiative to Accelerate Multilingual AI Progress. [Online]
4. @_akhaliq on Twitter. (2024). Cohere presents Aya Model. [Online]

(Die URLs der angegebenen Quellen wurden aus dem Artikeltext entfernt, da erwünscht wurde, keine zusätzliche Formatierung oder Symbole einzufügen.)

Was bedeutet das?

No items found.