Die Entwicklung von Technologien zur sprachgesteuerten Interaktion und automatischen Transkription hat in den letzten Jahren enorme Fortschritte gemacht. Ein besonders interessantes Feld ist die Generierung von Untertiteln aus verschiedenen Quellen wie Dateien, YouTube-Videos oder direkt vom Mikrofon. Die Möglichkeit, Untertitel in verschiedenen Formaten wie SRT oder WebVTT zu erstellen und Sprache-zu-Text-Übersetzungen durchzuführen, ist ein bedeutender Schritt in Richtung Zugänglichkeit und Internationalisierung von Inhalten.
Ein Beispiel für eine solche Innovation ist die Whisper-WebUI, eine auf Gradio basierende Benutzeroberfläche, die es ermöglicht, Untertitel auf einfache Weise zu generieren. Gradio ist eine Open-Source-Bibliothek, die es Entwicklern erlaubt, Machine Learning Modelle schnell als webbasierte Anwendungen bereitzustellen. Mit einer solchen Oberfläche können Nutzer Dateien hochladen oder URLs von YouTube-Videos eingeben und erhalten daraufhin automatisch generierte Untertitel.
Die Whisper-WebUI nutzt das OpenAI Whisper-Modell, eine automatische Spracherkennungssystem (ASR), die darauf trainiert ist, Sprache in geschriebenen Text zu übersetzen. Dieses System wurde mit einer großen Menge an mehrsprachigen und multitaskenden, überwachten Daten trainiert und zeigt eine hohe Genauigkeit beim Transkribieren verschiedenster Audioinhalte.
Die Einbindung solcher Technologien in die WebUI bietet Benutzern eine Vielzahl von Funktionen. Neben der Transkription von Audio- und Videodateien können Nutzer auch direkt über das Mikrofon sprechen und in Echtzeit Untertitel generieren lassen. Die Unterstützung verschiedener Untertitelformate erlaubt es, die generierten Transkripte in vielen verschiedenen Kontexten zu verwenden, von Videobearbeitungsprogrammen bis hin zu Videoplattformen.
Eine Besonderheit der Whisper-WebUI ist die Möglichkeit, Untertitel nicht nur zu generieren, sondern auch von anderen Sprachen ins Englische zu übersetzen. Dies geschieht durch die End-to-End-Sprach-zu-Text-Übersetzungsfunktion von Whisper. Darüber hinaus können Untertiteldateien mit Hilfe von Facebooks NLLB-Modellen oder der DeepL API in Text-zu-Text-Übersetzungen transformiert werden.
Für die Benutzung der Whisper-WebUI sind einige Voraussetzungen notwendig. So wird Git und Python in den Versionen 3.8 bis 3.10 sowie FFmpeg benötigt, um die WebUI zu betreiben. Nach der Installation von FFmpeg muss insbesondere darauf geachtet werden, dass der FFmpeg/bin-Ordner zum Systempfad hinzugefügt wird.
Die Installation der Whisper-WebUI selbst kann automatisiert erfolgen. Unter Windows lässt sich das Programm durch Ausführen einer Install.bat-Datei als normaler Benutzer einrichten. Nach der Installation kann die WebUI über die Datei start-webui.bat gestartet werden. Beim ersten Start wird das Modell automatisch heruntergeladen, falls es noch nicht installiert ist.
Die WebUI ist standardmäßig mit dem "faster-whisper" Projekt integriert, welches den VRAM-Verbrauch und die Transkriptionsgeschwindigkeit verbessert. Es bietet eine effizientere Implementierung des Whisper-Modells, die weniger GPU- und CPU-Speicher benötigt und schneller arbeitet als die Originalimplementierung von OpenAI.
Die Whisper-WebUI bietet verschiedene Modelle mit unterschiedlichem VRAM-Verbrauch und Geschwindigkeiten an. Von "tiny" bis "large" reicht die Palette, wobei die kleineren Modelle schneller, aber weniger genau sind und die größeren Modelle eine höhere Genauigkeit auf Kosten der Geschwindigkeit bieten. Für die reine englische Spracherkennung gibt es spezielle ".en" Modelle, die effizienter arbeiten als die multilingualen Modelle.
Diese Entwicklungen spiegeln die rapide fortschreitende Integration von KI in den Alltag wider. Sie bieten neue Möglichkeiten für Content-Ersteller, die Barrierefreiheit ihrer Inhalte zu erhöhen und ein breiteres Publikum zu erreichen. Mit Werkzeugen wie der Whisper-WebUI wird es einfacher, Inhalte international zu verbreiten und die globale Vernetzung weiter voranzutreiben.