Die Plattform Hugging Face, bekannt als Drehscheibe für KI-Modelle und -Werkzeuge, integriert nun den Zugriff auf serverlose Inferenzdienste verschiedener Anbieter. Damit eröffnet sich Entwicklern die Möglichkeit, ihre KI-Modelle flexibel und skalierbar auszuführen, ohne sich um die zugrundeliegende Hardware kümmern zu müssen. Derzeit unterstützt die Plattform die Anbieter Sambanova, Replicate, Together AI und Fal. Weitere Anbieter sollen folgen.
Ein wesentlicher Vorteil der Integration ist die Kostenstruktur. Hugging Face gibt an, dass die Nutzung der serverlosen Inferenzdienste über ihre Plattform nicht teurer ist als der direkte Zugriff auf die jeweiligen Anbieter. Entwickler generieren über die Hugging Face-Weboberfläche Token für den gewünschten Anbieter. Anfragen über die Schnittstelle (API) laufen dann über die Infrastruktur von Hugging Face, wobei die Kosten an den jeweiligen Dienstleister weitergegeben werden. Zukünftig plant Hugging Face Abkommen mit den Anbietern zur Umsatzbeteiligung. Im kostenlosen Tarif steht Entwicklern ein begrenztes Kontingent an Anfragen zur Verfügung. Das Pro-Abonnement für neun US-Dollar pro Monat beinhaltet zwei Dollar Guthaben, einsetzbar bei allen Anbietern.
Neben der Nutzung der Token-basierten Abrechnung über Hugging Face können Entwickler weiterhin bestehende API-Schlüssel der Inferenzdienstleister verwenden. In diesem Fall erfolgt die Abrechnung direkt über den jeweiligen Anbieter. Sowohl Token als auch API-Keys lassen sich über die Client-SDKs in Python und JavaScript verwenden. Auch direkte HTTP-Anfragen sind möglich, beispielsweise für OpenAI-kompatible Schnittstellen. Codebeispiele und weitere Informationen stellt Hugging Face auf seinem Blog bereit.
Die Integration serverloser Inferenzdienste ergänzt das bestehende Angebot von Hugging Face. Entwickler können weiterhin dedizierte Hardware über die Plattform mieten, um ihre KI-Modelle auszuführen. Mit den serverlosen Inferenzdiensten erhalten sie eine zusätzliche, flexible Option, die sich besonders für dynamische Workloads und Skalierung eignet. Die Anbieter passen die Rechenleistung automatisch an den Bedarf an, wodurch Entwickler Ressourcen effizient nutzen und Kosten optimieren können.
Die Erweiterung um serverlose Inferenzdienste unterstreicht das Bestreben von Hugging Face, eine umfassende Plattform für die KI-Entwicklung bereitzustellen. Neben der Bereitstellung von Modellen, Datensätzen und Werkzeugen ermöglicht die Plattform nun auch den Zugriff auf eine wachsende Auswahl an Inferenzdiensten, wodurch Entwicklern ein breites Spektrum an Möglichkeiten zur Ausführung und Skalierung ihrer KI-Anwendungen geboten wird. Parallel dazu arbeitet Hugging Face an weiteren Projekten, wie der Entwicklung von Open-R1, einer Open-Source-Variante des R1-Modells von DeepSeek.
Für Unternehmen, die KI-Lösungen implementieren möchten, bietet Mindverse ein umfassendes Portfolio an Tools und Dienstleistungen. Von der Erstellung von Texten und Bildern bis hin zur Entwicklung von Chatbots, Voicebots, KI-Suchmaschinen und Wissenssystemen unterstützt Mindverse Unternehmen dabei, das Potenzial der Künstlichen Intelligenz optimal auszuschöpfen. Mit maßgeschneiderten Lösungen und einem ganzheitlichen Ansatz begleitet Mindverse Unternehmen auf ihrem Weg zur erfolgreichen KI-Integration.
Bibliographie: - https://www.heise.de/news/Ohne-Mehrkosten-Hugging-Face-bietet-serverlose-Inferenzen-von-Drittanbietern-an-10260335.html - https://huggingface.co/docs/huggingface_hub/de/guides/inference - https://docs.aws.amazon.com/de_de/sagemaker/latest/dg/model-parallel-extended-features-pytorch-hugging-face.html - https://www.snowflake.com/de/blog/accelerate-ai-development/ - https://aws.amazon.com/de/blogs/germany/amazon-kendra-langchain-und-large-language-models-unternehmensdaten-als-basis-fuer-generative-ki-anwendungen/ - https://www.heise.de/newsticker/?wt_mc=nl.red.ho.ho-nl-daily.2022-06-03.link.link - https://stadt-bremerhaven.de/cloudflare-bringt-serverless-ai-zu-hugging-face/