Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen
Die Fähigkeit, Sprache zu verstehen und zu interpretieren, ist fundamental für menschliche Kommunikation. Doch sowohl menschliche als auch maschinelle Erkennungsprozesse sind fehleranfällig. NeKo, ein neues generatives Sprachmodell, adressiert dieses Problem und präsentiert einen innovativen Ansatz zur Fehlerkorrektur in verschiedenen Bereichen der Texterkennung, von der Spracherkennung (ASR) über maschinelle Übersetzung (MT) bis hin zur Texterkennung in Bildern (OCR).
Fehler in automatisch generierten Texten können vielfältige Ursachen haben. Bei der Spracherkennung können phonetische Ähnlichkeiten oder Hintergrundgeräusche zu Fehlinterpretationen führen. Bei der Texterkennung in Bildern entstehen Fehler oft durch schlechte Bildqualität oder ungewöhnliche Schriftarten. Die Korrektur dieser Fehler erfordert ein tiefes Verständnis der Sprache und des jeweiligen Kontextes.
Bisherige Ansätze zur Fehlerkorrektur setzen oft auf separate Sprachmodelle für verschiedene Anwendungsbereiche. Dies führt zu einem hohen Bedarf an Rechenleistung und Speicherplatz. Ein weiterer Nachteil ist die mangelnde Generalisierbarkeit: Ein Modell, das für die Korrektur von ASR-Fehlern trainiert wurde, ist nicht unbedingt in der Lage, Fehler in OCR-Texten zu korrigieren.
NeKo nutzt das sogenannte Mixture-of-Experts (MoE)-Prinzip. Dabei wird das Sprachmodell in spezialisierte Experten unterteilt, die jeweils für einen bestimmten Aufgabenbereich zuständig sind. Ein übergeordnetes Netzwerk, der sogenannte Router, entscheidet, welcher Experte für die Bearbeitung einer bestimmten Eingabe am besten geeignet ist. Dieser Ansatz ermöglicht es NeKo, Wissen aus verschiedenen Bereichen zu kombinieren und so eine hohe Genauigkeit bei der Fehlerkorrektur zu erreichen.
Im Gegensatz zu bisherigen MoE-Modellen, die oft für allgemeine Sprachmodellierung eingesetzt werden, sind die Experten in NeKo auf spezifische Aufgaben ausgerichtet. Dies ermöglicht eine gezielte Spezialisierung und verbessert die Leistung bei der Korrektur von domänenspezifischen Fehlern. Durch das Routing-System können die Experten ihr Wissen teilen und so voneinander lernen, was die Generalisierbarkeit des Modells verbessert.
NeKo wurde in verschiedenen Bereichen der Texterkennung evaluiert und erzielte dabei beeindruckende Ergebnisse. In Tests auf dem Open ASR Leaderboard konnte NeKo die Wortfehlerrate (WER) im Durchschnitt um 5% reduzieren und gleichzeitig die BLEU-Scores für Sprach- und Übersetzungsaufgaben deutlich verbessern. Auch in Zero-Shot-Evaluierungen, also in Tests mit Daten, die dem Modell vorher nicht bekannt waren, übertraf NeKo etablierte Modelle wie GPT-3.5 und Claude-Opus deutlich.
Besonders hervorzuheben ist die Leistung von NeKo bei der Korrektur von OCR-Fehlern. Hier konnte das Modell eine signifikante Verbesserung gegenüber bisherigen Ansätzen erzielen. Diese Ergebnisse unterstreichen die Robustheit und Vielseitigkeit von NeKo als Multi-Task-Modell.
NeKo stellt einen wichtigen Schritt in Richtung einer universellen Fehlerkorrektur für verschiedene Textquellen dar. Das MoE-Prinzip ermöglicht eine effiziente Nutzung von Ressourcen und eine hohe Generalisierbarkeit. Die vielversprechenden Ergebnisse in verschiedenen Anwendungsbereichen deuten darauf hin, dass NeKo das Potenzial hat, die Qualität von automatisch generierten Texten deutlich zu verbessern und so die menschliche Kommunikation zu erleichtern.
Bibliographie: Lin, Y.-T., Yang, C.-H. H., Chen, Z., Zelasko, P., Yang, X., Chen, Z.-C., Puvvada, K. C., Fu, S.-W., Hu, K., Chiu, J. W., Balam, J., Ginsburg, B., & Wang, Y.-C. F. (2024). NeKo: Toward Post Recognition Generative Correction Large Language Models with Task-Oriented Experts. arXiv. https://arxiv.org/html/2411.05945v1 Yang, C.-H. H., Gu, Y., Liu, Y.-C., Ghosh, S., Bulyko, I., & Stolcke, A. (2023). Generative Speech Recognition Error Correction with Large Language Models and Task-Activating Prompting. arXiv. https://arxiv.org/abs/2309.15649 Li, Y., Gong, Y., et al. (2024). Large Language Model Based Generative Error Correction: A Challenge and Baselines for Speech Recognition, Speaker Tagging, and Emotion Recognition. https://paperreading.club/page?id=265389 Yang, C.-H. H., Park, T., Gong, Y., Li, Y., Chen, Z., Lin, Y.-T., Chen, C., Hu, Y., Dhawan, K., Żelasko, P., Zhang, C., Chen, Y.-N., Tsao, Y., Balam, J., Ginsburg, B., Siniscalchi, S. M., Chng, E. S., Bell, P., Lai, C., Watanabe, S., & Stolcke, A. (2024). Large Language Model Based Generative Error Correction: A Challenge and Baselines for Speech Recognition, Speaker Tagging, and Emotion Recognition. https://paperswithcode.com/paper/large-language-model-based-generative-error Li, Y., Gong, Y., et al. (2024). Generative Error Correction for Code-Switching Speech Recognition Using Large Language Models. https://www.isca-archive.org/interspeech_2024/li24h_interspeech.pdf Chen, C., Hu, Y., Yang, C.-H. H., Liu, H., Siniscalchi, S. M., & Chng, E. S. (2023). Generative error correction for code-switching speech recognition using large language models. https://paperswithcode.com/paper/generative-error-correction-for-code Yang, C. H., Gu, Y., Liu, Y. C., Ghosh, S., Bulyko, I., Stolcke, A. (2023). Generative Speech Recognition Error Correction with Large Language Models and Task-Activating Prompting. https://assets.amazon.science/77/26/6c265e0a42d7a40d2ee8bdd158e6/generative-speech-recognition-error-correction-with-large-language-models-and-task-activating-prompting.pdf Chen, C., Hu, Y., Yang, C.-H. H., Siniscalchi, S. M., Chen, P.-Y., & Chng, E. S. (2023). HyPoradise: An Open Baseline for Generative Speech Recognition with Large Language Models. https://openreview.net/forum?id=cAjZ3tMye6¬eId=I7iiHobbNB Maity, S., Deroy, A., & Sarkar, S. (2024). How Ready Are Generative Pre-trained Large Language Models for Explaining Bengali Grammatical Errors? https://educationaldatamining.org/edm2024/proceedings/2024.EDM-posters.70/index.htmlEntdecken Sie die Vorteile gegenüber ChatGPT Plus
Sie nutzen bereits ChatGPT Plus? Das ist ein guter Anfang! Aber stellen Sie sich vor, Sie hätten Zugang zu allen führenden KI-Modellen weltweit, könnten mit Ihren eigenen Dokumenten arbeiten und nahtlos im Team kollaborieren.
Die professionelle KI-Plattform für Unternehmen – leistungsstärker, flexibler und sicherer als ChatGPT Plus. Mit über 50 Modellen, DSGVO-konformer Infrastruktur und tiefgreifender Integration in Unternehmensprozesse.
❌ Kein strukturierter Dokumentenvergleich
❌ Keine Bearbeitung im Dokumentkontext
❌ Keine Integration von Unternehmenswissen
✅ Gezielter Dokumentenvergleich mit Custom-Prompts
✅ Kontextbewusste Textbearbeitung im Editor
✅ Wissensbasierte Analyse & Zusammenfassungen
Erstellen Sie leistungsstarke Wissensdatenbanken aus Ihren Unternehmensdokumenten.Mindverse Studio verknüpft diese direkt mit der KI – für präzise, kontextbezogene Antworten auf Basis Ihres spezifischen Know-hows.DSGVO-konform, transparent und jederzeit nachvollziehbar.
❌ Nur ein Modellanbieter (OpenAI)
❌ Keine Modellauswahl pro Use Case
❌ Keine zentrale Modellsteuerung für Teams
✅ Zugriff auf über 50 verschiedene KI-Modelle
✅ Modellauswahl pro Prompt oder Assistent
✅ Zentrale Steuerung auf Organisationsebene
❌ Keine echte Teamkollaboration
❌ Keine Rechte- oder Rollenverteilung
❌ Keine zentrale Steuerung oder Nachvollziehbarkeit
✅ Teamübergreifende Bearbeitung in Echtzeit
✅ Granulare Rechte- und Freigabeverwaltung
✅ Zentrale Steuerung & Transparenz auf Organisationsebene
Nutzen Sie Mindverse Studio als zentrale Plattform für abteilungsübergreifende Zusammenarbeit.Teilen Sie Wissen, erstellen Sie gemeinsame Workflows und integrieren Sie KI nahtlos in Ihre täglichen Prozesse – sicher, skalierbar und effizient.Mit granularen Rechten, transparenter Nachvollziehbarkeit und Echtzeit-Kollaboration.
Sehen Sie Mindverse Studio in Aktion. Buchen Sie eine persönliche 30-minütige Demo.
🎯 Kostenlose Demo buchenLernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen