Manga, die berühmten japanischen Comics, haben weltweit eine riesige Anhängerschaft gewonnen. Ihr einzigartiger Stil und ihre fesselnden Geschichten haben Menschen aller Altersgruppen und Hintergründe in ihren Bann gezogen. Doch für sehbehinderte Menschen bleibt der Zugang zu diesen visuellen Meisterwerken eine enorme Herausforderung. Ein neues Forschungsprojekt zielt darauf ab, diese Barriere zu überwinden und Manga durch automatische Transkriptionen zugänglicher zu machen.
Das Lesen von Manga erfordert ein hohes Maß an visueller Wahrnehmung, da die Geschichten durch Bilder und Texte in Sprechblasen erzählt werden. Für sehbehinderte Menschen, die auf alternative Formate wie Audiodeskriptionen oder Braille-Schrift angewiesen sind, ist dies eine große Hürde. Die Herausforderung besteht darin, den visuellen Inhalt von Manga in eine Form zu übersetzen, die auch ohne Sehkraft verstanden werden kann.
Ein Forscherteam hat ein Modell namens Magiv2 entwickelt, das in der Lage ist, qualitativ hochwertige Transkriptionen ganzer Manga-Kapitel zu erstellen. Dieses Modell identifiziert, was gesagt wird, indem es den Text auf jeder Seite erkennt und ihn in wesentliche und nicht wesentliche Kategorien einteilt. Zudem wird festgestellt, wer spricht, indem jede Dialogzeile dem entsprechenden Charakter zugeordnet wird. Dabei wird besonders darauf geachtet, dass die Charaktere konsistent benannt werden.
Magiv2 nutzt fortschrittliche Techniken der Computer Vision und des maschinellen Lernens, um die verschiedenen Elemente eines Manga-Seite zu identifizieren:
- Erkennung von Panels, Textboxen und Charakterboxen. - Klassifizierung der Texte in wesentliche und nicht wesentliche Inhalte. - Zuordnung der Dialoge zu den entsprechenden Sprechern.Ein weiteres bedeutendes Ergebnis dieser Forschung ist die Erweiterung des PopManga-Evaluationsdatensatzes. Dieser umfasst nun Anmerkungen zu Sprechblasen, die Zuordnung von Texten zu entsprechenden Sprechblasen, die Klassifizierung von Texten und die Identität jedes Charakterkastens.
Ein entscheidender Bestandteil dieses Projekts ist der neue Charakterbank-Datensatz, der über 11.000 Charaktere aus 76 Manga-Serien umfasst. Dieser Datensatz enthält 11.500 exemplarische Charakterbilder sowie eine Liste der Kapitel, in denen sie erscheinen. Diese umfassende Datenbank ermöglicht es dem Modell, Charaktere präzise zu identifizieren und ihre Dialoge korrekt zuzuordnen.
Die Einführung von Magiv2 und des erweiterten PopManga-Datensatzes könnte die Manga-Industrie revolutionieren. Indem Manga für sehbehinderte Menschen zugänglicher gemacht werden, wird eine neue Zielgruppe erreicht. Dies könnte nicht nur die Anzahl der Manga-Leser erhöhen, sondern auch das Bewusstsein für die Bedürfnisse sehbehinderter Menschen in der Gesellschaft stärken.
Die Manga-Industrie könnte durch die Erschließung neuer Märkte erheblich profitieren. Barrierefreie Manga könnten in Bibliotheken, Schulen und Online-Plattformen angeboten werden, was zu höheren Verkaufszahlen und einer breiteren Anerkennung führt.
Die Bemühungen, Manga für sehbehinderte Menschen zugänglicher zu machen, sind ein bedeutender Schritt hin zu einer inklusiveren Gesellschaft. Durch den Einsatz fortschrittlicher Technologien wie Magiv2 und die Erweiterung von Datensätzen wie PopManga wird die Barrierefreiheit erheblich verbessert. Dies könnte nicht nur das Leben sehbehinderter Menschen bereichern, sondern auch die Manga-Industrie transformieren und neue wirtschaftliche Chancen schaffen.