In der digitalen Audiotechnologie besteht ein ständiges Streben nach makelloser Klangqualität. Hintergrundgeräusche, Verzerrungen und Bandbreitenbeschränkungen können jedoch die Klarheit, das Verständnis und das Benutzererlebnis erheblich beeinträchtigen. Mit der Einführung von Resemble Enhance präsentiert sich eine bahnbrechende Lösung für diese Herausforderungen. Resemble Enhance ist ein KI-gestütztes Modell, das speziell entwickelt wurde, um verrauschte Audiodaten in klare und eindrucksvolle Sprache zu verwandeln. Das Modell verbessert die Gesamtqualität der Sprache mit zwei Modulen: einem hochentwickelten Rauschunterdrücker und einem modernen Verstärker.
Die Notwendigkeit für fortschrittlichere Technologien zur Klangverbesserung ist quer durch verschiedene Branchen spürbar. Podcast-Produzenten verlassen sich auf hochwertige Audioqualität, um mit ihren Zuhörern durch kristallklare Erzählungen in Verbindung zu treten. Die Unterhaltungsindustrie ist stark von einwandfreien Audiospuren abhängig, um immersive Erlebnisse zu schaffen, und vielleicht ist die anspruchsvollste Aufgabe die Restaurierung historischer Aufnahmen.
Resemble Enhance ist darauf ausgelegt, diese vielfältigen Anwendungsfälle mit beispielloser Präzision und Leichtigkeit zu adressieren. Um Sprachunvollkommenheiten zu beheben, wurden fortschrittliche generative Modelle für die Sprachverbesserung eingesetzt. Enhance reinigt nicht nur Audio von Rauschen, sondern bereichert auch seine gesamte wahrgenommene Qualität. Enhance besteht aus zwei Modulen: einem Rauschunterdrücker, der Sprache von verrauschtem Audio trennt, und einem Verstärker, der die wahrgenommene Audioqualität weiter verbessert, indem er Audioverzerrungen restauriert und die Audio-Bandbreite erweitert. Die beiden Modelle werden mit hochwertigen 44,1-kHz-Sprachdaten trainiert, was die Aufwertung von Sprache mit hoher Qualität garantiert.
Im Herzen von Resemble Enhance liegt ein ausgefeilter Rauschunterdrücker. Man kann sich dieses Modul als Filter vorstellen, der akribisch Sprache von unerwünschtem Hintergrundrauschen trennt. Der dabei verwendete Rauschunterdrücker nutzt ein UNet-Modell, das ein komplexes Spektrogramm mit Rauscheinflüssen als Eingabe akzeptiert. Das Modell prognostiziert dann die Maskengröße und Phasendrehung, um die Sprache effektiv vom Originalaudio zu isolieren.
Der Verstärker ist ein latentes Conditional Flow Matching (CFM)-Modell. Es besteht aus einem impliziten Rangminimierenden Autoencoder (IRMAE) und einem CFM-Modell, das die Latenten vorhersagt. Diese zweistufige Herangehensweise beinhaltet zunächst einen Autoencoder, der das saubere Mel-Spektrogramm in eine kompakte latente Darstellung komprimiert, die dann wieder dekodiert und in eine Wellenform zurückverwandelt wird. Das Modell besteht aus einem Encoder, einem Decoder und einem Vocoder, die auf residualen conv1d-Blöcken basieren, wobei der Vocoder eine UnivNet verwendet, die mit dem AMP-Block von BigVGAN integriert ist.
Nach Abschluss des Trainings der ersten Stufe wird der IRMAE eingefroren und nur das latente CFM-Modell weiter trainiert. Das CFM-Modell ist auf ein Mel-Spektrogramm konditioniert, das aus dem verrauschten Mel-Spektrogramm und einem bereinigten Mel-Spektrogramm abgeleitet wird. Während des Trainings folgt der Parameter, der die Stärke des Rauschunterdrückers anpasst, einer gleichmäßigen Verteilung. Während der Inferenz kann der Wert von dem Benutzer gesteuert werden.
Mit Blick auf die Zukunft wird das Entwicklungsteam von Resemble Enhance weiterhin daran arbeiten, die Verarbeitungszeiten zu beschleunigen und die Kontrolle über feine Sprachelemente wie Akzentuierung und rhythmische Muster zu erweitern. Die Zielsetzung ist, die Fähigkeit des Modells zu steigern, selbst antike Audioaufnahmen – denken Sie an Aufzeichnungen, die über 75 Jahre alt sind – auf eine nie dagewesene Klarheit zu bringen.
Resemble Enhance stellt einen bedeutenden Fortschritt in der Audiotechnologie dar und zeigt das Engagement des Unternehmens, die Grenzen der Innovation in diesem Bereich weiterhin zu erweitern. Als Open-Source-Projekt ist es frei für Forschung, Entwicklung und kommerzielle Nutzung verfügbar, was die Zugänglichkeit und Anpassung an spezifische Anforderungen ermöglicht. Mit der Verfügbarkeit auf Plattformen wie HuggingFace ist es für Entwickler leicht zugänglich, um die eigenen Projekte zu bereichern und die Qualität der Audioverarbeitung zu verbessern.