Neuartige Trainingsmethode für Sprachassistenten setzt auf Selbstüberwachung ohne Annotierung

Kategorien:
No items found.
Freigegeben:
October 4, 2024
Sprachassistenten wie Siri und Google Assistant verarbeiten Audio und Text in der Regel separat, was zu Informationsverlusten und erhöhter Komplexität führt. End-to-End-Sprachmodelle (LLMs), die mit Supervised Fine-Tuning (SFT) trainiert werden, haben in letzter Zeit versucht, dies zu beheben, führten jedoch dazu, dass die Modelle Fähigkeiten aus reinen Text-LLMs "vergaßen". Eine neue Forschungsarbeit schlägt einen alternativen Ansatz für das Training von Sprach-LLMs ohne Instruktionsdaten vor. Dieser Ansatz, bekannt als "Distilled Voice Assistant" (DiVA), verwendet die Antwort eines reinen Text-LLMs auf Transkripte als Selbstüberwachung. Bedeutsamerweise kann dieser Prozess ohne annotierte Antworten durchgeführt werden. DiVA wurde auf drei verschiedenen Aufgaben evaluiert: Beantwortung gesprochener Fragen, Klassifizierung und Übersetzung. Die Ergebnisse zeigen, dass DiVA in der Lage ist, auf diese Aufgaben zu generalisieren, obwohl es nicht direkt mit Instruktionsdaten trainiert wurde. Darüber hinaus zeigte DiVA eine bessere Übereinstimmung mit den Benutzerpräferenzen und erreichte eine 72%ige Gewinnrate im Vergleich zu State-of-the-Art-Modellen wie Qwen 2 Audio, obwohl es mit über 100-fach geringerem Rechenaufwand für das Training trainiert wurde. Die Forscher hinter DiVA betonen mehrere Vorteile ihres Ansatzes: - **Vollständig Open Source:** DiVA verwendet ausschließlich Open-Data mit freier Lizenz, sodass sowohl akademische als auch industrielle Forscher auf DiVA aufbauen können. - **Zugänglich für das Training:** Der Destillationsverlust von DiVA ermöglicht es, mit einer Größenordnung weniger Daten starke Ergebnisse zu erzielen, die mit Qwen Audio für Sprache vergleichbar sind. Dies bedeutet, dass das Modell in weniger als einem Tag trainiert werden kann. - **End-to-End differenzierbar:** Modelle, die Sprache direkt als Eingabe akzeptieren können, haben das Potenzial, die Inferenz zu vereinfachen und zu beschleunigen, die Annotationskosten zu senken und die reichhaltigen sozialen Informationen zu erfassen, die unweigerlich durch ASR verloren gehen. Die Forscher hoffen, dass DiVA als Grundlage für zukünftige Forschung zu Sprach-LLMs dienen wird. ### Bibliographie - Held, W., Li, E., Ryan, M., Shi, W., Zhang, Y., & Yang, D. (2024). Distilling an End-to-End Voice Assistant from Speech Recognition Data. Hugging Face. - https://paperreading.club/page?id=256349 - https://diva-audio.github.io/ - https://openreview.net/pdf?id=-qB7ZgRNRq - https://www.researchgate.net/publication/344756505_Towards_Data_Distillation_for_End-to-end_Spoken_Conversational_Question_Answering - https://arxiv.org/pdf/2310.13289 - https://arxiv.org/pdf/2311.08883 - https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models - https://www.researchgate.net/publication/381579828_Instruction_Data_Generation_and_Unsupervised_Adaptation_for_Speech_Language_Models - https://www.appliedai.de/assets/files/LLM-Whitepaper-final_Digital03.pdf - https://aclanthology.org/2023.findings-acl.195.pdf
Was bedeutet das?