Neue Methoden in der maschinellen Übersetzung fördern Vielsprachigkeit

Kategorien:

No items found.

Freigegeben:

August 5, 2024

In-Context Example Selection via Similarity Search: Ein Durchbruch in der maschinellen Übersetzung für ressourcenarme Sprachen

Einleitung

Die Fähigkeit generativer großer Sprachmodelle (LLMs), kontextbezogenes Lernen durchzuführen, hat eine Vielzahl von Forschungsarbeiten darüber hervorgebracht, wie Modelle für verschiedene Aufgaben der natürlichen Sprachverarbeitung am besten angeregt werden können. In diesem Artikel konzentrieren wir uns auf die maschinelle Übersetzung (MT), eine Aufgabe, die nachweislich von kontextbezogenen Übersetzungsbeispielen profitiert. Allerdings wurden bisher keine systematischen Studien veröffentlicht, die sich damit beschäftigen, wie Beispiele am besten ausgewählt werden, und es wurden gemischte Ergebnisse hinsichtlich der Nützlichkeit der auf Ähnlichkeit basierenden Auswahl im Vergleich zur Zufallsauswahl berichtet.

Hintergrund und verwandte Arbeiten

In-Context Learning (ICL)

Seitdem Brown et al. (2020) die starken Null- und Wenigschuss-Fähigkeiten von GPT-3 auf Sprachverständnis-Benchmarks gezeigt haben, hat die Forschungsgemeinschaft erhebliche Anstrengungen unternommen, um das kontextbezogene Lernen empirisch zu analysieren. Zhao et al. (2021) zeigten, dass das Format des Prompts, die Qualität der Beispiele und deren Reihenfolge die Leistung beeinflussen, obwohl gezeigt wurde, dass die Leistung bei zunehmender Anzahl von Beispielen abflachen kann (Min et al., 2022).

Verwendung von LLMs für die maschinelle Übersetzung

In der MT hat der Vergleich von LLMs und das Verständnis ihres Verhaltens in Wenigschuss-Einstellungen mehrere Studien motiviert. Lin et al. (2022) zeigten, dass XGLM 7.5B GPT-3 6.7B in 32-Schuss für mehrere Übersetzungsrichtungen übertrifft. Vilar et al. (2023) verwendeten PALM (Chowdhery et al., 2022) für Wenigschuss-MT und kamen zu dem Schluss, dass die Qualität des Auswahlpools einen hohen Einfluss auf die Wenigschuss-MT-Leistung hat.

Ähnlichkeitssuche zur Beispiels-Auswahl

Während die Mehrheit der Arbeiten, einschließlich der in der MT, zufällig ausgewählte Wenigschuss-Beispiele verwenden, untersuchen andere, wie die Auswahl bestimmter Beispiele die Leistung beeinflussen kann. Dies wird oft durch das Auffinden von Sätzen erreicht, die dem zu verarbeitenden Satz ähnlich sind, basierend auf Satzvektordarstellungen (z.B. RoBERTa, Liu et al., 2019) oder auf Satz-Emdedding-Modellen (z.B. LASER2, Heffernan et al., 2022). Liu et al. (2022) zeigten, dass k-NN-Retrieval mit feinabgestimmten RoBERTa-Modellen die GPT-3-Leistung bei Frage-Antwort-Aufgaben und der Table-to-Text-Generierung verbesserte.

Beispiels-Retrieval via Ähnlichkeitssuche

Beispiels-Retrieval via Ähnlichkeitssuche ist eine Auswahlstrategie für das kontextbezogene Lernen. Die Idee ist, das Eingabesignal zu nutzen, um Sätze aus einem Beispielpool (Parallelkorpus) auf Basis ihrer Ähnlichkeit zur zu übersetzenden Quelle zu extrahieren. Die abgerufenen Satzpaare werden dann als Wenigschuss-Beispiele mit dem Quellsatz zu einem Prompt zusammengebaut, der dann in ein LLM zur Übersetzung eingespeist wird.

Experimentelle Einrichtung und Ergebnisse

In unserer Studie benchmarken wir mehrere Ähnlichkeitsmetriken basierend auf mehrsprachigen Satz-Embeddings über verschiedene LLMs hinweg. Wir berücksichtigen Übersetzungen aus dem Englischen ins Französische, Deutsche, Swahili und Wolof, um verschiedene Ressourcenniveaus zu berücksichtigen. Wir vergleichen die Verwendung von Satz-Embeddings und bestehenden Ansätzen und bewerten die Robustheit dieser Strategie gegen verschiedene Zusammensetzungen des Auswahlpools bei Übersetzungen aus dem Englischen ins Swahili.

Unsere Analyse zeigt, dass das Beispiels-Retrieval via Ähnlichkeitssuche die MT-Leistung bei hochressourcigen Sprachen nur marginal verbessert. Allerdings haben wir zum ersten Mal signifikante Leistungssteigerungen über alle Metriken hinweg beobachtet, wenn in ressourcenarme Sprachen übersetzt wird. Diese Ergebnisse sind über LLMs verschiedener Größen hinweg beobachtbar.

Diskussion

Unsere Ergebnisse deuten darauf hin, dass das Beispiels-Retrieval via Ähnlichkeitssuche eine vielversprechende Methode zur Verbesserung der MT-Leistung ist, insbesondere für ressourcenarme Sprachen. Es zeigt sich, dass die Qualität und die Vielfalt des Auswahlpools eine entscheidende Rolle spielen. Für hochressourcige Sprachen ist der Vorteil dieser Methode jedoch begrenzt.

Schlussfolgerungen

Die vorliegende Studie zeigt, dass das Beispiels-Retrieval via Ähnlichkeitssuche die Leistung der maschinellen Übersetzung, insbesondere für ressourcenarme Sprachen, signifikant verbessern kann. Diese Erkenntnisse könnten dazu beitragen, die Entwicklung effizienterer Übersetzungssysteme voranzutreiben, die auch für Sprachen mit begrenzten Ressourcen zugänglich sind.

Bibliographie

- https://arxiv.org/abs/2408.00397 - https://arxiv.org/html/2408.00397v1 - https://aclanthology.org/2023.findings-acl.564.pdf - https://huggingface.co/papers - https://www.researchgate.net/publication/366026833_In-context_Examples_Selection_for_Machine_Translation - https://arxiv-sanity-lite.com/?rank=pid&pid=2408.00397 - https://www.researchgate.net/publication/370981533_In-context_Example_Selection_for_Machine_Translation_Using_Multiple_Features - https://paperreading.club/page?id=244266 - https://arxiv-sanity-lite.com/?rank=pid&pid=2403.19285

Was bedeutet das?