DenseAV Neuer Algorithmus revolutioniert Sprach und Geräuscherkennung in Videos

Kategorien:
No items found.
Freigegeben:
June 16, 2024

Neue Algorithmen zur Sprach- und Geräuscherkennung in Videos: DenseAV

Die Welt der künstlichen Intelligenz (KI) hat kürzlich einen bemerkenswerten Fortschritt gemacht. Forscher am MIT CSAIL und Google haben einen neuen Algorithmus namens DenseAV entwickelt, der die Bedeutung von Sprache und die Lokalisierung von Geräuschen in Videos ohne jegliche Aufsicht lernen kann. Diese innovative Technologie könnte weitreichende Anwendungen finden und das Verständnis der Menschheit für die Kommunikation sowohl untereinander als auch mit anderen Lebensformen revolutionieren.

Inspiration und Entwicklung

Die Inspiration für DenseAV kam aus einer unerwarteten Quelle: dem Film „Die Reise der Pinguine“. In einer Szene fällt ein Pinguin und gibt ein schmerzvolles Stöhnen von sich. „Es war fast offensichtlich, dass dieses Stöhnen ein Schimpfwort ersetzte“, sagt Mark Hamilton, ein MIT-PhD-Student und einer der führenden Köpfe hinter DenseAV. Diese Beobachtung führte zur Frage, ob ein Algorithmus durch das Betrachten von Videos lernen könnte, was Menschen sagen und welche Geräusche auftreten.

„Unser Modell, DenseAV, zielt darauf ab, Sprache zu lernen, indem es vorhersagt, was es sieht, basierend auf dem, was es hört, und umgekehrt“, erklärt Hamilton. Wenn jemand beispielsweise sagt: „Backe den Kuchen bei 350“, könnte man eine Kuchenform oder einen Ofen sehen. Um dieses Audio-Video-Matching-Spiel über Millionen von Videos hinweg erfolgreich zu meistern, muss das Modell lernen, worüber die Menschen sprechen.

Funktionsweise von DenseAV

DenseAV verwendet zwei Hauptkomponenten, um Audio- und visuelle Daten separat zu verarbeiten. Diese Trennung verhindert, dass der Algorithmus betrügt, indem er zulässt, dass die visuelle Seite auf das Audio schaut und umgekehrt. Stattdessen zwingt es den Algorithmus, Objekte zu erkennen und bedeutungsvolle Merkmale für beide Signaltypen zu erstellen. DenseAV lernt, indem es Paare von Audio- und visuellen Signalen vergleicht, um herauszufinden, welche Signale übereinstimmen und welche nicht. Diese Methode, genannt kontrastives Lernen, erfordert keine beschrifteten Beispiele und ermöglicht es DenseAV, die wichtigen Vorhersagemuster der Sprache selbst herauszufinden.

Unterschiede zu früheren Algorithmen

Ein wesentlicher Unterschied zwischen DenseAV und früheren Algorithmen besteht darin, dass frühere Arbeiten sich auf einen einzigen Begriff der Ähnlichkeit zwischen Klang und Bildern konzentrierten. Ein gesamter Audioclip, wie jemand, der „der Hund saß auf dem Gras“ sagt, wurde mit einem gesamten Bild eines Hundes abgeglichen. Dies erlaubte es den früheren Methoden nicht, feinere Details zu entdecken, wie die Verbindung zwischen dem Wort „Gras“ und dem Gras unter dem Hund. Das Team von DenseAV suchte und aggregierte alle möglichen Übereinstimmungen zwischen einem Audioclip und den Pixeln eines Bildes. Dies verbesserte nicht nur die Leistung, sondern ermöglichte auch eine präzise Lokalisierung von Geräuschen, die vorherige Algorithmen nicht erreichen konnten.

Training und Leistung

Die Forscher trainierten DenseAV auf AudioSet, das 2 Millionen YouTube-Videos umfasst. Sie erstellten auch neue Datensätze, um zu testen, wie gut das Modell Klänge und Bilder verknüpfen kann. In diesen Tests übertraf DenseAV andere Spitzenmodelle bei Aufgaben wie der Identifizierung von Objekten anhand ihrer Namen und Geräusche und bewies so seine Effektivität. „Frühere Datensätze unterstützten nur grobe Bewertungen, daher haben wir einen Datensatz mit semantischen Segmentierungsdatensätzen erstellt. Dies hilft bei der pixelgenauen Annotation zur präzisen Bewertung der Leistung unseres Modells“, sagt Hamilton.

Herausforderungen und zukünftige Anwendungen

Eine der größten Herausforderungen des Projekts bestand darin, Sprache ohne jeglichen Texteingang zu lernen. Das Ziel war es, die Bedeutung der Sprache von Grund auf neu zu entdecken, ohne vortrainierte Sprachmodelle zu verwenden. Diese Herangehensweise ist inspiriert davon, wie Kinder durch Beobachten und Zuhören ihrer Umgebung Sprache verstehen lernen.

Zu den zukünftigen Anwendungen von DenseAV gehören Systeme, die aus massiven Mengen an Videoinhalten lernen können, wie z.B. Lehrvideos. Ein weiteres aufregendes Anwendungsgebiet ist das Verständnis neuer Sprachen, wie die Kommunikation von Delfinen oder Walen, die keine schriftliche Form der Kommunikation haben. Die Hoffnung besteht darin, dass DenseAV helfen kann, diese Sprachen zu verstehen, die menschlichen Übersetzungsbemühungen seit jeher entgangen sind. Schließlich könnte diese Methode verwendet werden, um Muster zwischen anderen Signalpaaren zu entdecken, wie die seismischen Geräusche der Erde und ihre Geologie.

Fazit

DenseAV stellt einen bedeutenden Fortschritt auf dem Gebiet der künstlichen Intelligenz dar. Die Fähigkeit des Algorithmus, die Bedeutung von Wörtern und die Lokalisierung von Geräuschen ohne menschliche Intervention zu erlernen, eröffnet neue Möglichkeiten für das Verständnis und die Nutzung von Sprach- und Geräuschdaten. Ob es darum geht, riesige Mengen an Videoinhalten zu analysieren oder die Kommunikation von Tieren zu verstehen, DenseAV könnte die Art und Weise, wie wir die Welt um uns herum wahrnehmen und interagieren, revolutionieren.

Bibliografie


- https://www.csail.mit.edu/news/new-algorithm-discovers-language-just-watching-videos
- https://arxiv.org/html/2406.05629v1
- https://www.researchgate.net/publication/337438816_Learning_to_Localize_Sound_Sources_in_Visual_Scenes_Analysis_and_Applications
- https://openaccess.thecvf.com/content_cvpr_2018/papers/Senocak_Learning_to_Localize_CVPR_2018_paper.pdf
- https://hal.inria.fr/tel-03518272/document
- https://www.youtube.com/watch?v=8bDRVP9xSfc
- https://phrase.com/blog/posts/ios-tutorial-internationalization-localization/
- https://www.mt-g.com/en/language-solutions/we-empower-you-to-reach-the-world/audio-/-video

Was bedeutet das?