OpenAI führt neue Echtzeit-API für realistischere KI-Interaktionen ein

Kategorien:
No items found.
Freigegeben:
October 3, 2024

Die neue Echtzeit-API von OpenAI ermöglicht Entwicklern das Hinzufügen realistischer Konversationen zu ihren Apps

OpenAI hat auf seiner DevDay-Konferenz mehrere neue Funktionen für App-Entwickler angekündigt. Das Unternehmen bietet nun Tools an, um KI-generierte Stimmen zu integrieren und GPT-4o mit Bildern zu verfeinern.

Echtzeit-Interaktion mit der neuen API

Die neue "Realtime API" ermöglicht es Entwicklern, sechs KI-Stimmen in ihre Apps zu integrieren. Diese Stimmen unterscheiden sich von denen, die in ChatGPT verwendet werden. Um rechtliche Probleme zu vermeiden, können Entwickler keine Stimmen von Drittanbietern verwenden.

OpenAI präsentierte eine Reiseplanungs-App, die die Realtime API verwendet. Benutzer konnten mit einem KI-Assistenten über eine Londonreise sprechen und erhielten schnelle Antworten. Die API kann auch Restaurantvorschläge zu Karten hinzufügen.

Die Technologie funktioniert auch für Telefonanrufe, z. B. für Bestellungen. OpenAI gibt nicht automatisch bekannt, dass es sich um eine KI-Stimme handelt, sondern überlässt dies vorerst den Entwicklern.

Weitere Neuerungen für GPT-4o und Kosteneinsparungen

Zu den weiteren Updates gehören:

  • Entwickler können Bilder verwenden, um GPT-4o zu verfeinern
  • Neues Prompt-Caching, um Kosten zu senken und Antworten zu beschleunigen
  • "Modelldestillation", um kleinere Modelle wie GPT-4o mini zu verbessern
  • Verdoppelte Ratenbegrenzung für das neue o1-Modell

OpenAI gibt an, dass das Prompt-Caching automatisch funktioniert und potenziell bis zu 50 % der Token einsparen kann. Mit "gespeicherten Vervollständigungen" können Entwickler Modellinteraktionen auf der Plattform von OpenAI speichern, um sie später zu verfeinern. Das Unternehmen veröffentlichte auch neue Bewertungstools.

Ziel: Natürlichere Interaktion mit KI-Systemen

Mit der Einführung der neuen Funktionen, insbesondere der Integration realistischer KI-Stimmen in Anwendungen und der Verfeinerung von GPT-4o mit Bildern, verfolgt OpenAI das Ziel, die Interaktion mit KI-Systemen natürlicher zu gestalten.

Die Realtime API bietet sechs KI-Stimmen zur Auswahl und kann in Anwendungen wie Reiseplanungs-Apps oder Telefonanrufe integriert werden. OpenAI überlässt es den Entwicklern, die Verwendung von KI-Stimmen offenzulegen.

Weitere neue Funktionen sind das sofortige Caching zur Kostensenkung, die Modelldestillation zur Optimierung kleinerer Modelle und neue Bewertungstools. Außerdem verdoppelt OpenAI die Ratenbegrenzung für das o1-Modell.

Bibliographie

Schreiner, Maximilian. "OpenAI's new Realtime API lets developers add realistic conversations to their apps." THE DECODER, 1. Oktober 2024, https://the-decoder.com/openais-new-realtime-api-lets-developers-add-realistic-conversations-to-their-apps/. Zugriff am 17. Oktober 2024. Zeff, Maxwell. "OpenAI’s DevDay brings Realtime API and other treats for AI app developers." TechCrunch, 1. Oktober 2024, https://techcrunch.com/2024/10/01/openais-devday-brings-realtime-api-and-other-treats-for-ai-app-developers/. Zugriff am 17. Oktober 2024. "OpenAI lets anyone use its new voice assistant in third-party apps." Bloomberg, 1. Oktober 2024, https://www.bloomberg.com/news/articles/2024-10-01/openai-lets-anyone-use-its-new-voice-assistant-in-third-party-apps. Zugriff am 17. Oktober 2024.
Was bedeutet das?