Fortschritte in der Verarbeitung historischer türkischer Sprache durch NLP-Ressourcen und -Modelle

Kategorien:
No items found.
Freigegeben:
January 10, 2025

Artikel jetzt als Podcast anhören

Grundlagen für die Verarbeitung historischer türkischer Sprache: Ressourcen und Modelle

Die digitale Welt eröffnet neue Möglichkeiten für die Erforschung und den Zugang zu historischen Texten. Besonders die Fortschritte im Bereich der automatischen Sprachverarbeitung (Natural Language Processing, NLP) bieten das Potenzial, große Mengen an historischen Dokumenten zu analysieren und wertvolle Informationen zu extrahieren. Dieser Artikel beleuchtet die Herausforderungen und Fortschritte bei der Entwicklung von NLP-Ressourcen und -Modellen für historisches Türkisch, eine Sprachvariante, die bisher im Bereich der Computerlinguistik wenig Beachtung gefunden hat.

Die Herausforderungen der historischen Sprachverarbeitung

Die Anwendung moderner NLP-Methoden auf historische Texte gestaltet sich oft komplex. Sprachwandel über die Jahrhunderte hinweg führt zu signifikanten Unterschieden in Grammatik, Vokabular und Semantik. Historische Texte weisen zudem häufig sprachliche Besonderheiten und uneinheitliche Schreibweisen auf. Ein weiteres Hindernis ist der Mangel an annotierten Daten und digitalen Ressourcen, die für das Training moderner NLP-Modelle unerlässlich sind. Während für modernes Türkisch bereits umfangreiche Korpora und Lexika existieren, sind entsprechende Ressourcen für historisches Türkisch begrenzt.

Neue Ressourcen für historisches Türkisch

Um die Lücke im Bereich der historischen türkischen Sprachverarbeitung zu schließen, wurden in einer aktuellen Forschungsarbeit neue Ressourcen und Modelle entwickelt. Diese umfassen:

HisTR: Das erste Datensatz für die Erkennung benannter Entitäten (Named Entity Recognition, NER) in historischem Türkisch. Dieser Datensatz enthält 812 manuell annotierte Sätze aus dem 17. bis 19. Jahrhundert und ermöglicht das Training von Modellen zur Identifizierung von Personen, Orten, Organisationen und anderen relevanten Entitäten in historischen Texten.

OTA-BOUN: Die erste Universal Dependencies-Treebank für historisches Türkisch. Diese Treebank enthält 514 Sätze aus verschiedenen literarischen Werken, die manuell mit Wortarten und Dependenzrelationen annotiert wurden. OTA-BOUN dient als Grundlage für das Training von Modellen zur syntaktischen Analyse historischer türkischer Texte.

Ottoman Text Corpus (OTC): Ein umfangreiches Korpus transkribierter historischer türkischer Texte aus dem 15. bis 20. Jahrhundert. Das OTC umfasst Texte verschiedener Genres und bietet eine wertvolle Datenbasis für die Entwicklung und Evaluierung von NLP-Modellen.

Transformer-basierte Modelle und erste Ergebnisse

Basierend auf den neu entwickelten Ressourcen wurden Transformer-basierte Modelle für verschiedene NLP-Aufgaben trainiert, darunter Dependenzparsing, Wortarten-Tagging und NER. Die ersten Ergebnisse zeigen vielversprechende Leistungen und demonstrieren das Potenzial der neuen Ressourcen für die Analyse historischer türkischer Texte. Gleichzeitig verdeutlichen die Experimente auch die bestehenden Herausforderungen, wie beispielsweise die Anpassung an unterschiedliche Domänen und Sprachvariationen über verschiedene Zeiträume hinweg.

Ausblick und Bedeutung für die Forschung

Die Entwicklung von HisTR, OTA-BOUN und OTC stellt einen wichtigen Meilenstein für die NLP-Forschung im Bereich des historischen Türkisch dar. Diese Ressourcen bilden eine solide Grundlage für zukünftige Arbeiten und ermöglichen die Entwicklung leistungsfähigerer NLP-Modelle. Die frei verfügbare Publikation der Ressourcen und Modelle auf Plattformen wie Hugging Face fördert die Zusammenarbeit und den Fortschritt in diesem Forschungsfeld. Langfristig können diese Entwicklungen dazu beitragen, historische Texte besser zugänglich zu machen und neue Einblicke in die Geschichte und Kultur des türkischen Sprachraums zu gewinnen. Darüber hinaus können die Erkenntnisse aus der historischen Sprachverarbeitung auch auf andere unterrepräsentierte Sprachen und historische Sprachvarianten übertragen werden.

Bibliographie Özateş, Ş. B., Tıraş, T. E., Adak, E. E., Doğan, B., Karagöz, F. B., Genç, E. E., & Taşdemir, E. F. B. (2025). Building Foundations for Natural Language Processing of Historical Turkish: Resources and Models. arXiv preprint arXiv:2501.04828. Çöltekin, Ç., Doğruöz, A. S., & Çetinoğlu, Ö. (2023). Resources for Turkish natural language processing: A critical survey. Language Resources and Evaluation, 57, 449–488. Gökçeoğlu, M., Çöltekin, Ç., & Sever, H. (2024). Multi-label Text Classification of Ottoman Turkish Legal Documents. In Proceedings of the 17th Linguistic Annotation Workshop (pp. 116-126). Soygazi, B., Sever, H., & Çöltekin, Ç. (2021). Building a Question Answering Dataset for Ottoman Turkish. In Proceedings of the Second Workshop on Computational Approaches to Historical Language Change (pp. 123-131). Güngör, O., Güngör, B., & Oflazer, K. (2018). Turkish national assembly corpus of minutes of general assembly. In International Conference on Text, Speech, and Dialogue (pp. 565-573). Springer. Bilgin Taşdemir, E. F. (2023). An Efficient Ottoman Turkish Handwritten Document Dataset Creation Method using GANs. arXiv preprint arXiv:2309.06069. Tasdemir, E. F. B., Kara, M. F., & Kara, Y. E. (2024). OCR and Segmentation of Historical Ottoman Turkish Documents. arXiv preprint arXiv:2406.01415. Jaf, Z., & Kayhan, E. (2021). Ottoman Turkish Transliteration using Transformers. In Proceedings of the 7th International Workshop on Arabic and Derived Script Analysis and Recognition (ASAR 2021).
Was bedeutet das?

Wie können wir Ihnen heute helfen?

Das Expertenteam von Mindverse freut sich darauf, Ihnen zu helfen.