Effiziente Musikgenerierung durch Presto! Neue Ansätze zur Beschleunigung der Inferenz in KI-Modellen

Kategorien:

No items found.

Freigegeben:

October 8, 2024

Artikel jetzt als Podcast anhören

Obwohl diffusionsbasierte Text-zu-Musik (TTM)-Methoden Fortschritte machen, ist eine effiziente Generierung in hoher Qualität nach wie vor eine Herausforderung. Wir stellen Presto! vor, einen Ansatz zur Beschleunigung der Inferenz für partiturbasierte Diffusionstransformatoren durch Reduzierung sowohl der Sampling-Schritte als auch der Kosten pro Schritt. Um die Anzahl der Schritte zu reduzieren, entwickeln wir eine neue partiturbasierte Distillationsmethode für das EDM-Modell der Diffusionsmodelle, die erste GAN-basierte Distillationsmethode für TTM. Um die Kosten pro Schritt zu senken, entwickeln wir eine einfache, aber wirkungsvolle Verbesserung einer aktuellen Layer-Distillationsmethode, die das Lernen durch eine bessere Erhaltung der Varianz des verborgenen Zustands verbessert. Schließlich kombinieren wir unsere Stufen- und Layer-Destillationsmethoden zu einem doppelseitigen Ansatz. Wir evaluieren unsere Stufen- und Layer-Destillationsmethoden unabhängig voneinander und zeigen, dass jede von ihnen eine klassenbeste Leistung erbringt. Unsere kombinierte Destillationsmethode kann qualitativ hochwertige Ausgaben mit verbesserter Diversität erzeugen und unser Basismodell um das 10- bis 18-fache beschleunigen (230/435 ms Latenz für 32 Sekunden Mono/Stereo 44,1 kHz, 15-mal schneller als vergleichbare SOTA-Modelle) - die schnellste qualitativ hochwertige TTM, die uns bekannt ist. Klangbeispiele finden Sie unter https://presto-music.github.io/web/.

Herausforderungen in der Musikgenerierung

Die Generierung von Musik mithilfe von künstlicher Intelligenz (KI) hat in den letzten Jahren bemerkenswerte Fortschritte gemacht. Trotz der Fortschritte bei diffusionsbasierten Text-zu-Musik (TTM)-Methoden bleibt die effiziente Generierung hochwertiger Musik eine Herausforderung. Die Generierung komplexer und nuancierter Musikstücke erfordert oft erhebliche Rechenressourcen und Zeit, was die Forschung und praktische Anwendung von TTM-Modellen einschränkt.

Presto!: Ein zweigleisiger Ansatz zur Beschleunigung der Musikgenerierung

Um diese Herausforderungen zu bewältigen, wurde Presto! entwickelt, ein neuartiger Ansatz zur Beschleunigung der Inferenz für partiturbasierte Diffusionstransformatoren. Presto! verfolgt einen zweigleisigen Ansatz, indem es sowohl die Anzahl der Sampling-Schritte als auch die Kosten pro Schritt reduziert, die zur Generierung von Musik erforderlich sind. Dies wird durch zwei innovative Methoden erreicht: Score-basierte Distribution-Matching-Destillation (DMD) und verbesserte Layer-Destillation.

Score-basierte Distribution-Matching-Destillation (DMD)

Presto! führt DMD ein, eine neue score-basierte Destillationsmethode, die speziell für die EDM-Familie von Diffusionsmodellen entwickelt wurde. DMD ist die erste GAN-basierte Destillationsmethode für TTM und zielt darauf ab, die Anzahl der zur Musikgenerierung erforderlichen Sampling-Schritte zu reduzieren. Durch die Anpassung der Verteilung der generierten Daten an die Verteilung der Trainingsdaten ermöglicht DMD dem Modell, qualitativ hochwertige Musik mit weniger Schritten zu erzeugen.

Verbesserte Layer-Destillation

Zusätzlich zur Reduzierung der Sampling-Schritte optimiert Presto! auch die Effizienz jedes einzelnen Schritts durch eine verbesserte Layer-Destillationsmethode. Diese Methode verbessert eine bestehende Technik, indem sie die Varianz des verborgenen Zustands während des Destillationsprozesses besser erhält. Durch die Beibehaltung dieser wichtigen Information kann das Modell die Beziehungen zwischen verschiedenen Musikelementen besser erfassen und genauere und ausdrucksstärkere Musik erzeugen.

Ergebnisse und Vorteile von Presto!

Die Evaluierung von Presto! hat vielversprechende Ergebnisse gezeigt, die die Effektivität sowohl der schrittweisen als auch der layerweisen Destillation demonstrieren. Unabhängig voneinander liefern beide Methoden eine klassenbeste Leistung und übertreffen bestehende Ansätze zur Beschleunigung der Musikgenerierung. Die Kombination dieser Methoden in einem zweigleisigen Ansatz führt zu einer erheblichen Beschleunigung des Basismodells um das 10- bis 18-fache. Dies bedeutet, dass Presto! qualitativ hochwertige Musik mit einer Latenz von nur 230/435 ms für 32 Sekunden Mono/Stereo 44,1 kHz erzeugen kann - 15-mal schneller als vergleichbare State-of-the-Art-Modelle. Presto! bietet mehrere Vorteile für die Musikgenerierung: - **Beschleunigte Inferenz:** Presto! ermöglicht eine deutlich schnellere Musikgenerierung und reduziert so die für die Erstellung hochwertiger Musikstücke benötigte Zeit und die Rechenressourcen erheblich. - **Verbesserte Qualität und Vielfalt:** Trotz der Beschleunigung der Inferenz bewahrt Presto! die Qualität und Vielfalt der generierten Musik. Die destillierten Modelle sind in der Lage, Musik zu erzeugen, die mit der des Originals vergleichbar ist und eine große Bandbreite an Musikstilen und -genres abdeckt. - **Effizienzsteigerung:** Durch die Reduzierung der Anzahl der Sampling-Schritte und die Optimierung der Kosten pro Schritt verbessert Presto! die Gesamteffizienz von TTM-Modellen.

Schlussfolgerung

Presto! stellt einen bedeutenden Fortschritt im Bereich der KI-gestützten Musikgenerierung dar. Durch die Einführung neuartiger Destillationsmethoden überwindet Presto! die Einschränkungen bestehender TTM-Modelle und ermöglicht eine schnellere und effizientere Generierung hochwertiger Musik. Dieser Durchbruch eröffnet neue Möglichkeiten für Musiker, Komponisten und Musikbegeisterte, mit KI zu experimentieren und ihr kreatives Potenzial zu erkunden. Mit seiner Fähigkeit, den Musikgenerierungsprozess zu beschleunigen, ohne die Qualität zu beeinträchtigen, ebnet Presto! den Weg für eine neue Ära des musikalischen Ausdrucks und der Innovation. # Bibliografie [1] Pezzat-Morales, M.; Perez-Meana, H.; Nakashika, T. Fast Jukebox: Accelerating Music Generation with Knowledge Distillation. Appl. Sci. 2023, 13, 5630. https://doi.org/10.3390/app13095630 [2] Briot, J.-P.; Hadjerrouit, S.; Pachet, F. Deep Learning Techniques for Music Generation—A Survey. arXiv 2020, arXiv:2009.05150. [3] Krizhevsky, A.; Sutskever, I.; Hinton, G.E. ImageNet classification with deep convolutional neural networks. In Proceedings of the Advances in Neural Information Processing Systems, Harrahs and Harveys, Lake Tahoe, NV, USA, 3–8 December 2012; pp. 1097–1105. [4] Sutskever, I.; Vinyals, O.; Le, Q.V. Sequence to sequence learning with neural networks. In Proceedings of the Advances in Neural Information Processing Systems, Montreal, QC, Canada, 8–13 December 2014; pp. 3104–3112. [5] Bahdanau, D.; Cho, K.; Bengio, Y. Neural machine translation by jointly learning to align and translate. arXiv 2014, arXiv:1409.0473. [6] Eck, D.; Schmidhuber, J. Finding temporal structure in music: Blues improvisation with LSTM recurrent networks. In Proceedings of the International Conference on Neural Information Processing, Dunedin, New Zealand, 27 November–1 December 2002; pp. 747–752. [7] Goodfellow, I.J.; Pouget-Abadie, J.; Mirza, M.; Xu, B.; Warde-Farley, D.; Ozair, S.; Courville, A.; Bengio, Y. Generative adversarial nets. In Proceedings of the Advances in Neural Information Processing Systems, Montreal, QC, Canada, 8–13 December 2014; pp. 2672–2680. [8] Mirza, M.; Osindero, S. Conditional generative adversarial nets. arXiv 2014, arXiv:1411.1784. [9] Kingma, D.P.; Welling, M. Auto-encoding variational Bayes. arXiv 2013, arXiv:1312.6114. [10] Vaswani, A.; Shazeer, N.; Parmar, N.; Uszkoreit, J.; Jones, L.; Gomez, A.N.; Kaiser, Ł.; Polosukhin, I. Attention is all you need. In Proceedings of the Advances in Neural Information Processing Systems, Long Beach, CA, USA, 4–9 December 2017; pp. 5988–5998. [11] Dhariwal, P.; Jun, H.; Payne, C.; Kim, J.W.; Luan, Y.; Radford, J.; Chen, M.; Creswell, A.; Hesse, C.; Sifre, L.; et al. Jukebox: A generative model for music. arXiv 2020, arXiv:2005.00144. [12] OpenAI. Jukebox. 2020. Available online: https://openai.com/blog/jukebox/ (accessed on 26 April 2023). [13] Oord, A.v.d.; Vinyals, O.; Kavukcuoglu, K. Neural discrete representation learning. In Proceedings of the 31st Conference on Neural Information Processing Systems (NIPS 2017), Long Beach, CA, USA, 4–9 December 2017. [14] Jiao, X.; Yin, Y.; Shang, L.; Jiang, X.; Chen, X.; Li, L.; Wang, F.; Liu, Q. TinyBERT: Distilling BERT for natural language understanding. arXiv 2019, arXiv:1909.10351. [15] Yang, L.C.; Chou, S.Y.; Yeh, Y.H. MidiNet: A convolutional generative adversarial network for symbolic-domain music generation. In Proceedings of the ISMIR, Paris, France, 23–27 September 2017; pp. 389–395. [16] Dong, H.W.; Hsiao, W.Y.; Yang, L.C.; Yang, Y.H. MuseGAN: Multi-track sequential generative adversarial networks for symbolic music generation and accompaniment. In Proceedings of the Thirty-Second AAAI Conference on Artificial Intelligence, New Orleans, LA, USA, 2–7 February 2018. [17] Roberts, A.; Engel, J.; Raffel, C.; Hawthorne, C.; Eck, D. A hierarchical latent vector model for learning long-term structure in music. arXiv 2018, arXiv:1803.05428. [18] Wu, J.; Zhang, C.; Chu, X.; Zhou, Z. HRNN: A deep hierarchical recurrent neural network for symbolic music generation. In Proceedings of the 2019 International Joint Conference on Neural Networks (IJCNN), Budapest, Hungary, 14–19 July 2019; pp. 1–8. [19] Oord, A.v.d.; Dieleman, S.; Zen, H.; Simonyan, K.; Vinyals, O.; Graves, A.; Kalchbrenner, N.; Senior, A.; Kavukcuoglu, K. Wavenet: A generative model for raw audio. arXiv 2016, arXiv:1609.03499. [20] Oord, A.v.d.; Dieleman, S.; Zen, H.; Simonyan, K.; Vinyals, O.; Graves, A.; Kalchbrenner, N.; Senior, A.; Kavukcuoglu, K. WaveNet: A generative model for raw audio. In Proceedings of the SSW, Barcelona, Spain, 4–9 December 2016. [21] Ping, W.; Peng, K.; Zhao, Y. Clarinet: Parallel wave generation in end-to-end text-to-speech. arXiv 2019, arXiv:1910.10336. [22] Ping, W.; Peng, K.; Gibian, A.; Arik, S.; Kannan, A.; Narang, S.; Ankur, P.; Bai, Y.; Pang, R. Deep voice 3: Scaling text-to-speech with convolutional sequence learning. arXiv 2017, arXiv:1710.07654. [23] Tamamori, A.; Kobayashi, T.; Takamichi, S.; Toda, T. Speaker-dependent WaveNet vocoder inference acceleration with teacher-student learning. In Proceedings of the ICASSP 2019-2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Brighton, UK, 12–17 May 2019; pp. 6086–6090. [24] Kumar, K.; Kumar, R.; de Boissiere, T.; Gestin, L.; Teoh, W.Z.; Sotelo, J.; de Brébisson, A.; Bengio, Y.; Courville, A.C. MelGAN: Generative adversarial networks for conditional waveform synthesis. In Proceedings of the Advances in Neural Information Processing Systems, Vancouver, BC, Canada, 8–14 December 2019; pp. 14910–14921. [25] Donahue, C.; McAuley, J.; Puckette, M. Adversarial audio synthesis. arXiv 2018, arXiv:1802.04208. [26] Vaswani, A.; Shazeer, N.; Parmar, N.; Uszkoreit, J.; Jones, L.; Gomez, A.N.; Kaiser, Ł.; Polosukhin, I. Attention is all you need. arXiv 2017, arXiv:1706.03762. [27] Huang, C.Z.; Vaswani, A.; Uszkoreit, J.; Simon, I.; Hawthorne, C.; Shazeer, N.; Dai, A.M.; Hoffman, M.D.; Dinculescu, M.; Eck, D. Music transformer: Generating music with long-term structure. arXiv 2018, arXiv:1809.04281. [28] Payne, C. MuseNet. 2019. Available online: https://openai.com/blog/musenet/ (accessed on 26 April 2023). [29] Child, R.; Gray, S.; Radford, A.; Sutskever, I. Generating long sequences with sparse transformers. arXiv 2019, arXiv:1904.10509. [30] Dieleman, S.; van den Oord, A.; Simonyan, K. The challenge of realistic music generation: Modelling raw audio at scale. In Proceedings of the 31st Conference on Neural Information Processing Systems (NIPS 2017) Workshop on Bayesian Deep Learning, Long Beach, CA, USA, 4–9 December 2017. [31] Mehri, S.; Kumar, K.; Gulrajani, I.; Kumar, R.; Jain, S.; Courville, A.; Bengio, Y. Samplernn: An unconditional end-to-end neural audio generation model. arXiv 2016, arXiv:1612.07837. [32] Hinton, G.; Vinyals, O.; Dean, J. Distilling the knowledge in a neural network. arXiv 2015, arXiv:1503.02531. [33] Dhariwal, P.; Jun, H.; Payne, C.; Kim, J.W.; Luan, Y.; Radford, J.; Chen, M.; Creswell, A.; Hesse, C.; Sifre, L.; et al. Jukebox. 2020. Available online: https://github.com/openai/jukebox (accessed on 26 April 2023). [34] Dhariwal, P.; Jun, H.; Payne, C.; Kim, J.W.; Luan, Y.; Radford, J.; Chen, M.; Creswell, A.; Hesse, C.; Sifre, L.; et al. Jukebox Samples. 2020. Available online: https://openai.com/blog/jukebox/#samples (accessed on 26 April 2023). [35] Esling, P.; Agres, K.; Hoerig, C. What is conditional in conditional GANs? In Proceedings of the ICASSP 2021-2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Toronto, ON, Canada, 6–11 June 2021; pp. 3680–3684.

Was bedeutet das?