Eine wegweisende Partnerschaft zwischen dem Indian Institute of Science (IISc), ARTPARK und Hugging Face soll die Entwicklung von KI-Modellen für die vielfältigen Sprachen Indiens beschleunigen. Im Zentrum steht dabei Vaani, ein umfangreicher, offener und multimodaler Datensatz, der die sprachliche und kulturelle Vielfalt Indiens repräsentiert.
Das Projekt Vaani, initiiert von IISc/ARTPARK und Google im Jahr 2022, verfolgt das ambitionierte Ziel, einen frei zugänglichen, multimodalen Datensatz zu erstellen, der die sprachliche Diversität Indiens umfassend abbildet. Im Gegensatz zu Ansätzen, die sich auf weit verbreitete Sprachen konzentrieren, verfolgt Vaani einen geozentrischen Ansatz und erfasst auch Dialekte und Sprachen, die in abgelegenen Regionen gesprochen werden.
Das Projekt plant die Sammlung von über 150.000 Stunden Sprachdaten und 15.000 Stunden transkribierten Textdaten von einer Million Menschen aus allen 773 Distrikten Indiens. Die Datenerhebung erfolgt in Phasen. Phase 1, die bereits abgeschlossen und öffentlich zugänglich ist, umfasste 80 Distrikte. Phase 2, die derzeit läuft, erweitert den Datensatz auf weitere 100 Distrikte.
Die Zusammenarbeit zwischen Hugging Face und IISc/ARTPARK zielt darauf ab, die Zugänglichkeit und Nutzbarkeit des Vaani-Datensatzes zu verbessern. Dies soll die Entwicklung von KI-Systemen fördern, die Indiens Sprachen besser verstehen und den digitalen Bedürfnissen der Bevölkerung gerecht werden.
Der Vaani-Datensatz bietet eine detaillierte Übersicht über die Sprachverteilung in den einzelnen Distrikten Indiens. Diese Informationen sind für Forscher, KI-Entwickler und Sprachtechnologie-Innovatoren von unschätzbarem Wert, die Sprachmodelle für spezifische Regionen und Dialekte entwickeln möchten. Ein transkribierter Teil des Datensatzes, der 790 Stunden transkribierte Audiodaten von etwa 700.000 Sprechern und 70.000 Bildern enthält, ist ebenfalls verfügbar.
Der Vaani-Datensatz bietet zahlreiche Vorteile, darunter eine breite Sprachabdeckung (54 Sprachen), Repräsentation verschiedener geografischer Regionen und sozioökonomischer Hintergründe, eine große Anzahl von Sprechern, spontane Sprachdaten und realistische Aufnahmeumgebungen. Diese Eigenschaften ermöglichen die Entwicklung inklusiver KI-Modelle für verschiedene Anwendungen:
Diese KI-Modelle können eine Vielzahl von Conversational-AI-Anwendungen unterstützen, von Bildungstools über Telemedizinplattformen und Gesundheitslösungen bis hin zu Wähler-Hotlines, Medienlokalisierung und mehrsprachigen intelligenten Geräten.
IISc/ARTPARK und Google haben ihre Partnerschaft für Phase 2 erweitert, die zusätzliche 100 Distrikte umfasst und somit alle Bundesstaaten Indiens abdeckt. Die Nutzung des Vaani-Datensatzes für die Entwicklung neuer KI-Anwendungen, Forschung oder innovative Anwendungsfälle trägt zur Verbesserung und Erweiterung des Projekts bei. Feedback und Einblicke zur Nutzung des Datensatzes sind über vaanicontact@gmail.com oder ein Feedback-Formular erwünscht.
Bibliographie: https://huggingface.co/blog/iisc-huggingface-collab https://huggingface.co/blog https://huggingface.co/blog/fastrtc https://app.daily.dev/tags/ai https://medium.com/@acharysusant/should-india-build-its-own-large-foundational-ai-model-yes-03a3ffc73744 https://arxiv.org/pdf/2412.20357 https://www.netizen.page/2025/02/19-russia.html https://huggingface.co/datasets/ai4bharat/indic-align https://huggingface.co/datasets/ai4bharat/indic-instruct-data-v0.1 https://timespro.com/compare-course/indian-institute-of-science-bangalore-certificate-programme-in-quantum-computing-and-artificial-intelligence