Google und OpenAI erreichen Meilensteine mit neuen KI-Modellen Gemini Pro und GPT-4T Vision

Kategorien:
No items found.
Freigegeben:
June 14, 2024

In der Welt der Künstlichen Intelligenz (KI) markierte der heutige Tag einen bemerkenswerten Zufall: Zwei führende Technologieunternehmen, Google und OpenAI, gaben bekannt, dass ihre neuesten KI-Modelle, Gemini Pro und GPT4T Vision, gleichzeitig den Status der allgemeinen Verfügbarkeit (General Availability, GA) erreicht haben. Diese Entwicklung zeigt nicht nur die rasante Fortschrittsgeschwindigkeit im Bereich der KI, sondern unterstreicht auch die wachsende Bedeutung dieser Technologien in einer Vielzahl von Anwendungsfällen.

Gemini Pro, eine Erweiterung des bereits beeindruckenden Maschinenlernmodells von Google, hat in der Vergangenheit für Aufsehen gesorgt, indem es die Fähigkeiten der Spracherkennung und -verarbeitung deutlich verbesserte. Mit einem neuen Kontextfenster, das eine Million Tokens verarbeiten kann, ist Gemini Pro in der Lage, bis zu 9,5 Stunden Audio zu verstehen – und das nicht nur auf Wortebene, sondern auch hinsichtlich Tonfall und Emotionen. Dies beinhaltet sogar das Verständnis für Hintergrundgeräusche wie Hundegebell oder Regenfall. Neben diesen Audiofunktionen verfügt Gemini Pro über eine File API, die es Nutzern ermöglicht, nahezu unbegrenzt Dateien hochzuladen. Zudem wurde ein neues kleines Einbettungsmodell namens Gecko-1b-256/768 eingeführt, das Modelle vergleichbarer Größe in MTEB (Multitask Text Embedding Benchmark) übertrifft.

Auf der anderen Seite hat OpenAI mit GPT-4 Turbo mit Vision ein Modell herausgebracht, das die Grenzen des bisher Möglichen noch weiter verschiebt. Drei Stunden nach der Ankündigung von Gemini Pro wurde GPT-4 Turbo mit Vision allgemein verfügbar gemacht. Diese Version beinhaltet bedeutende Verbesserungen des GPT-4 Turbo Sprachmodells selbst, insbesondere im Bereich des logischen Denkens.

Die zeitgleiche Veröffentlichung dieser beiden Modelle ist ein reiner Zufall, aber sie spiegelt die dynamische und wettbewerbsorientierte Umgebung wider, in der KI-Unternehmen agieren. Während diese Entwicklungen für Brancheninsider und Technologieenthusiasten von großem Interesse sind, dürften sie auch weitreichende Auswirkungen auf Branchen haben, die auf fortgeschrittene Sprach- und Bildverarbeitung angewiesen sind, wie Kundenservice, Gesundheitswesen und Unterhaltung.

Die Tatsache, dass diese Veröffentlichungen ohne große vorherige Ankündigungen oder Marketingkampagnen erfolgten, zeigt, wie normal es geworden ist, dass hochentwickelte KI-Modelle schnell und ohne viel Aufhebens auf den Markt gebracht werden. In einer Branche, die sich ständig weiterentwickelt, scheint es, dass die nächste bahnbrechende Innovation immer gleich um die Ecke ist.

Es ist klar, dass Unternehmen wie Google und OpenAI die Entwicklung im Bereich der KI weiterhin vorantreiben und damit die Möglichkeiten der Technologie erweitern. Während die heutigen Ankündigungen nur einen kleinen Ausschnitt der gesamten KI-Landschaft darstellen, unterstreichen sie doch die signifikanten Fortschritte, die in diesem Bereich gemacht werden.

Quellen:
1. Google Cloud Community. (2024). When is gemini-pro-vision moving out of pre-GA. Abgerufen am 10. April 2024, von https://www.googlecloudcommunity.com/gc/AI-ML/When-is-gemini-pro-vision-moving-out-of-pre-GA/m-p/699929
2. AI News. (2024). Gemini Pro vs GPT4V: 7 AI Vision, IQ Test Comparison. Abgerufen am 10. April 2024, von https://www.youtube.com/watch?v=QUFAy4ZIkqI
3. This Day in AI Podcast. (2024). EP45: GPT Store Next Week, Gemini Pro & Gemini Vision, Mixtral API, AnyText, NY Times Copyright. Abgerufen am 10. April 2024, von https://www.youtube.com/watch?v=35SdjZh_RBM
4. Digitale Profis. (2024). ALLE KI NEWS DER WOCHE IN 5 MINUTEN | Gemini Advanced, Midjourney Orb, Google Maps KI uvm. Abgerufen am 10. April 2024, von https://www.youtube.com/watch?v=RTUrZgilkxs

Was bedeutet das?