Die digitale Bildbearbeitung hat in den letzten Jahren enorme Fortschritte gemacht. Eine der bedeutendsten Entwicklungen ist die Hintergrundentfernung, die in verschiedenen Branchen wie E-Commerce, Gaming und Werbung weit verbreitet ist. Eines der führenden Modelle in diesem Bereich ist das RMBG-1.4 Modell von BRIA AI. In diesem Artikel werfen wir einen detaillierten Blick auf dieses Modell, seine Funktionen und seinen Einfluss auf die Industrie.
Das RMBG-1.4 Modell von BRIA AI ist ein fortschrittliches Hintergrundentfernungsmodell, das entwickelt wurde, um effektiv den Vordergrund vom Hintergrund in einer Vielzahl von Kategorien und Bildtypen zu trennen. Das Modell wurde auf einem sorgfältig ausgewählten Datensatz trainiert, der allgemeine Stockbilder, E-Commerce, Gaming und Werbeinhalte umfasst, was es für kommerzielle Anwendungsfälle geeignet macht.
Das RMBG-1.4 Modell wurde mit über 12.000 hochauflösenden, manuell beschrifteten Bildern mit pixelgenauer Genauigkeit trainiert. Der Datensatz umfasst:
Die Bilder wurden sorgfältig ausgewählt, um eine ausgewogene Verteilung bezüglich Geschlecht, Ethnie und Menschen mit unterschiedlichen Behinderungen zu gewährleisten.
Die Verteilung der Bilder im Datensatz nach Kategorien ist wie folgt:
Die Bilder wurden außerdem in fotorealistische und nicht-fotorealistische Kategorien unterteilt:
Die Verteilung der Bilder nach Hintergrundtypen ist wie folgt:
Die Verteilung der Bilder nach der Anzahl der Hauptvordergrundobjekte ist wie folgt:
Das RMBG-1.4 Modell basiert auf dem IS-Net und wurde mit einem einzigartigen Trainingsschema und proprietären Datensatzmodifikationen entwickelt. Diese Verbesserungen erhöhen die Genauigkeit und Effektivität des Modells in verschiedenen Bildverarbeitungsszenarien erheblich.
Das Modell wurde qualitativ bewertet und zeigte herausragende Ergebnisse in verschiedenen Szenarien. Es wurde erfolgreich in verschiedenen Anwendungen wie E-Commerce-Websites und Gaming-Plattformen eingesetzt.
Das RMBG-1.4 Modell ist ideal für Anwendungen, bei denen die Sicherheit von Inhalten, rechtlich lizenzierte Datensätze und Verzerrungsminderung von entscheidender Bedeutung sind. Es kann für nicht-kommerzielle Zwecke unter einer Creative Commons-Lizenz verwendet werden, während kommerzielle Nutzungen einer kommerziellen Vereinbarung mit BRIA AI unterliegen.
Das Modell kann einfach installiert und verwendet werden. Die Installation erfolgt über das Klonen des Repositorys und das Installieren der erforderlichen Abhängigkeiten:
Das Modell kann entweder als Pipeline oder durch direktes Laden des Modells verwendet werden. Hier sind einige Beispiele:
from transformers import pipeline image_path = "https://farm5.staticflickr.com/4007/4322154488_997e69e4cf_z.jpg" pipe = pipeline("image-segmentation", model="briaai/RMBG-1.4", trust_remote_code=True) pillow_mask = pipe(image_path, return_mask = True) # outputs a pillow mask pillow_image = pipe(image_path) # applies mask on input and returns a pillow image- Direktes Laden des Modells:
from transformers import AutoModelForImageSegmentation from torchvision.transforms.functional import normalize model = AutoModelForImageSegmentation.from_pretrained("briaai/RMBG-1.4",trust_remote_code=True) def preprocess_image(im: np.ndarray, model_input_size: list) -> torch.Tensor: if len(im.shape) < 3: im = im[:, :, np.newaxis] im_tensor = torch.tensor(im, dtype=torch.float32).permute(2,0,1) im_tensor = F.interpolate(torch.unsqueeze(im_tensor,0), size=model_input_size, mode='bilinear') image = torch.divide(im_tensor,255.0) image = normalize(image,[0.5,0.5,0.5],[1.0,1.0,1.0]) return image def postprocess_image(result: torch.Tensor, im_size: list)-> np.ndarray: result = torch.squeeze(F.interpolate(result, size=im_size, mode='bilinear') ,0) ma = torch.max(result) mi = torch.min(result) result = (result-mi)/(ma-mi) im_array = (result*255).permute(1,2,0).cpu().data.numpy().astype(np.uint8) im_array = np.squeeze(im_array) return im_array device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu") model.to(device) image_path = "https://farm5.staticflickr.com/4007/4322154488_997e69e4cf_z.jpg" orig_im = io.imread(image_path) orig_im_size = orig_im.shape[0:2] image = preprocess_image(orig_im, model_input_size).to(device) result=model(image) result_image = postprocess_image(result[0][0], orig_im_size) pil_im = Image.fromarray(result_image) no_bg_image = Image.new("RGBA", pil_im.size, (0,0,0,0)) orig_image = Image.open(image_path) no_bg_image.paste(orig_image, mask=pil_im)
Das RMBG-1.4 Modell hat in der Community große Beliebtheit erlangt. Es wurde bereits über 1,7 Millionen Mal heruntergeladen und in zahlreichen Projekten und Anwendungen eingesetzt. Diese hohe Downloadzahl unterstreicht die Leistungsfähigkeit und Vielseitigkeit des Modells.
Ein weiteres bemerkenswertes Modell im Bereich der Hintergrundentfernung ist BiRefNet, das in seinem ersten Monat 30.000 Downloads erreicht hat. Dieses Modell hat sich ebenfalls als äußerst effektiv erwiesen und wird in verschiedenen Anwendungen genutzt.
Die Zukunft der Hintergrundentfernung sieht vielversprechend aus. Mit der kontinuierlichen Entwicklung neuer Modelle und der Verbesserung bestehender Modelle wie RMBG-1.4 und BiRefNet wird die Technologie immer präziser und vielseitiger. Diese Fortschritte werden weiterhin die Art und Weise verändern, wie wir digitale Inhalte erstellen und konsumieren.
Das RMBG-1.4 Modell von BRIA AI hat sich als ein führendes Werkzeug zur Hintergrundentfernung etabliert. Mit seiner hohen Genauigkeit, Effizienz und Vielseitigkeit setzt es neue Maßstäbe in der Bildbearbeitung. Die kontinuierliche Weiterentwicklung und die zunehmende Beliebtheit dieser Technologie versprechen spannende Entwicklungen in der Zukunft.