RC Stable Audio Tools: Lokaler 1-Klick-Launcher für alle Plattformen
Einführung
Die Welt der generativen Audio-Modelle hat einen bedeutenden Schritt nach vorne gemacht. RoyalCities hat eine Fork der offiziellen Stable Audio Tools Gradio App von Stability AI erstellt. Diese Neuerung bringt eine Vielzahl fortschrittlicher Funktionen mit sich und bietet die Möglichkeit, lokal auf allen gängigen Plattformen wie Windows, Mac und Linux betrieben zu werden. Dies eröffnet neue Horizonte für Musiker, Sounddesigner und Entwickler, die auf der Suche nach benutzerfreundlichen und leistungsstarken Tools zur Audioerzeugung sind.
Hintergrund und Entwicklung
Die Stable Audio Tools von Stability AI sind darauf ausgelegt, kurze Audiosamples, Soundeffekte und Produktionselemente durch Text-Prompts zu generieren. Die von RoyalCities entwickelte Fork bietet zusätzliche Modifikationen, die die Funktionalität erheblich erweitern. Zu den bemerkenswertesten Neuerungen gehören dynamisches Modell-Loading, ein Button für zufällige Prompts und eine automatische Konvertierung von generierten Samples in das MIDI-Format.
RoyalCities hat zudem die Gradio-Schnittstelle, ein beliebtes Tool zur Erstellung benutzerfreundlicher Machine-Learning-Interfaces, weiterentwickelt, um den neuen Funktionen gerecht zu werden und die Benutzerfreundlichkeit zu maximieren.
Hauptmerkmale der RC Stable Audio Tools
Die RC Stable Audio Tools bieten eine breite Palette an Funktionen, die sie zu einem unverzichtbaren Werkzeug für die Audioerzeugung machen:
- Dynamisches Modell-Loading: Ermöglicht den schnellen Wechsel zwischen dem Basismodell und zukünftigen Community-Finetunes.
- Zufälliger Prompt-Button: Ein Klick-Button, der zufällige Prompts generiert und derzeit auf das Infinite Pianos Finetune abgestimmt ist.
- BPM & Bar Selector: Einstellungen für BPM und Takt, die mit der Zeitkonditionierung des Modells verknüpft sind.
- Automatische Sample-zu-MIDI-Konverter: Alle generierten Samples werden automatisch in das MIDI-Format konvertiert.
- Automatische Sample-Zuschnitt: Generierte Samples werden automatisch auf die gewünschte Länge zugeschnitten, um das Importieren in DAWs zu erleichtern.
Installation und Einrichtung
Die Installation der RC Stable Audio Tools ist einfach und kann in wenigen Schritten durchgeführt werden:
1. Repository klonen:
```
git clone https://github.com/RoyalCities/RC-stable-audio-tools.git
cd RC-stable-audio-tools
```
2. Virtuelle Umgebung erstellen:
- Windows:
```
python -m venv venv
venv\Scripts\activate
```
- macOS und Linux:
```
python3 -m venv venv
source venv/bin/activate
```
3. Notwendige Pakete installieren:
```
pip install stable-audio-tools
pip install .
```
Für Windows-Nutzer gibt es einen zusätzlichen Schritt, um sicherzustellen, dass Gradio GPU/CUDA verwendet und nicht auf die CPU zurückfällt:
```
pip uninstall -y torch torchvision torchaudio
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121
```
Konfiguration und Nutzung
Eine Beispiel-config.json ist im Root-Verzeichnis enthalten und kann angepasst werden, um Verzeichnisse für benutzerdefinierte Modelle und Ausgaben zu spezifizieren. Die Gradio-Schnittstelle kann entweder über eine Batch-Datei oder direkt über die Kommandozeile gestartet werden.
Batch-Datei Beispiel:
```
@echo off
cd /d path-to-your-venv/Scripts
call activate
cd /d path-to-your-stable-audio-tools
python run_gradio.py --model-config models/path-to-config/example_config.json --ckpt-path models/path-to-config/example.ckpt
pause
```
Kommandozeile:
```
python run_gradio.py --model-config models/path-to-config/example_config.json --ckpt-path models/path-to-config/example.ckpt
```
Generierung von Audio und MIDI
Die Eingabe von Prompts in die Gradio-Schnittstelle ermöglicht die Generierung von Audio- und MIDI-Dateien, die gemäß den Spezifikationen in config.json gespeichert werden. Die Schnittstelle wurde erweitert, um Bar/BPM-Einstellungen, MIDI-Anzeige und -Konvertierung sowie dynamisches Modell-Loading zu umfassen.
Erweiterte Nutzung
Für detaillierte Anweisungen zu Trainings- und Inferenzbefehlen sowie weiteren Optionen wird auf die Hauptdokumentation auf GitHub verwiesen.
Schlussfolgerung
Die RC Stable Audio Tools stellen einen bedeutenden Fortschritt in der Welt der generativen Audio-Modelle dar. Mit ihren erweiterten Funktionen und der Möglichkeit, lokal auf allen Plattformen betrieben zu werden, bieten sie eine leistungsstarke und benutzerfreundliche Lösung für die Audioerzeugung. Musiker, Sounddesigner und Entwickler können von den vielfältigen Möglichkeiten profitieren, die diese Tools bieten.
Bibliographie
- https://github.com/RoyalCities/RC-stable-audio-tools
- https://twitter.com/cocktailpeanut/status/1798489860505841906
- https://gradio.app/
- https://github.com/Stability-AI/stable-audio-tools/blob/main/run_gradio.py
- https://www.gradio.app/docs/gradio/audio
- https://www.gradio.app/guides/getting-started-with-the-python-client
- https://www.gradio.app/guides/real-time-speech-recognition