Multilingual E5: Innovation in der mehrsprachigen Texteinbettung durch KI

Kategorien:

No items found.

Freigegeben:

June 14, 2024

In den letzten Jahren hat die Entwicklung von künstlicher Intelligenz (KI) und maschinellem Lernen (ML) bedeutende Fortschritte gemacht, insbesondere im Bereich der natürlichen Sprachverarbeitung (NLP). Ein neuer Meilenstein in diesem Bereich ist die Einführung von Multilingual E5, einem innovativen Modell zur Einbettung (Embedding) von Texten in mehreren Sprachen, das von Microsoft vorgestellt wurde.

Multilingual E5 ist Teil einer Familie von Texteinbettungsmodellen, die darauf ausgelegt sind, die semantische Ähnlichkeit von Texten über verschiedene Sprachen hinweg präzise zu berechnen. Im Gegensatz zu früheren Modellen, die für die Einbettung mehrerer Sprachen in lokalen Umgebungen verwendet wurden, wie das 2019 veröffentlichte SentenceTransformers-Modell "paraphrase-multilingual-mpnet-base-v2", bietet Multilingual E5 eine höhere Präzision und Aktualität.

Die Herausforderung bei der Texteinbettung besteht darin, die Problematik von Schlüsselwort-Unstimmigkeiten zu lösen und effizientes Informationsabrufen zu ermöglichen. Frühere Modelle wurden oft auf begrenzten, beschrifteten Daten oder qualitativ minderwertigen, maschinell übersetzten Daten trainiert, was nicht die erforderliche Genauigkeit lieferte. Im Gegensatz dazu wurde Multilingual E5 auf einem wesentlich größeren und vielfältigeren Datensatz trainiert, der aus bereinigten Textpaaren aus dem Internet besteht, bekannt als "CCPairs"-Datensatz. Dieser Ansatz stellt sicher, dass die Einbettungen genauer und zuverlässiger sind, da sie auf einem breiten und umfassenden Datensatz basieren.

Die E5-Modelle wurden mittels kontrastivem Pre-Training auf 1 Milliarde mehrsprachiger Textpaare vorbereitet, gefolgt von einem Fine-Tuning auf einer Kombination von beschrifteten Datensätzen. Zusätzlich wurde ein neues, anweisungsgesteuertes Einbettungsmodell eingeführt, dessen Leistung mit den besten, ausschließlich englischsprachigen Modellen ähnlicher Größe vergleichbar ist.

Die Multilingual E5-Modelle bieten eine Balance zwischen Inferenzeffizienz und Einbettungsqualität und sind in drei Größen verfügbar: klein, Basis und groß. Das Basismodell verfügt über 768 Dimensionen für Einbettungen, während das große Modell 1024 Dimensionen hat. Als Tokenizer wird XLMRoberta verwendet, der dieselben SentencePiece-Modelldateien wie SentenceTransformers verwendet, sodass der Tokenizer problemlos verwendet werden kann. Dies bedeutet, dass SentenceTransformers einfach durch Multilingual E5 in Anwendungen ersetzt werden können, indem man die Modelle austauscht.

Es gibt jedoch Einschränkungen bei Multilingual E5. Die maximale Tokenlänge, die in Multilingual E5 eingegeben werden kann, beträgt 512. Wenn diese Grenze überschritten wird, tritt während der Inferenz ein Fehler auf. Dies ist kürzer als bei OpenAI's "text-embedding-ada-002", das eine maximale Tokenlänge von 8191 hat. Nutzer sollten sich dieser Begrenzung bewusst sein, wenn sie mit längeren Texten arbeiten, um sicherzustellen, dass sie im zulässigen Bereich für Multilingual E5 liegen.

Multilingual E5 kann mit dem ailia SDK verwendet werden, einer Sammlung von vortrainierten, hochmodernen KI-Modellen für schnelle Inferenz auf plattformübergreifenden, GPU-basierten Systemen. Die ax Inc. hat das ailia SDK entwickelt und bietet eine breite Palette von Dienstleistungen an, von Beratung und Modellerstellung bis hin zur Entwicklung von KI-basierten Anwendungen und SDKs.

Angesichts der zunehmenden Globalisierung und der Vielfalt der Sprachen ist die Fähigkeit, Texte in vielen verschiedenen Sprachen zu verarbeiten, von entscheidender Bedeutung. Mit Multilingual E5 haben Entwickler und Forscher jetzt ein mächtiges Werkzeug in der Hand, um die Barriere zwischen Sprachen zu überwinden und die NLP-Technologie auf ein neues Level zu heben.

Quellen:
- AK. (2024, 9. Februar). Microsoft presents Multilingual E5 Text Embeddings. Twitter.
- Cochard, D. (2023, 31. Januar). Multilingual E5: A Machine Learning Model for Embedding Text in Multiple Languages. Medium.
- Wang, L., Yang, N., Huang, X., Yang, L., Majumder, R., Wei, F. (2024, 19. Januar). Improving Text Embeddings with Large Language Models. arXiv:2401.00368v2 [cs.CL].

Was bedeutet das?

No items found.