Die Entwicklung im Bereich der Künstlichen Intelligenz (KI) schreitet rasant voran. Google hat mit Gemini 2.0 die nächste Generation seines multimodalen KI-Modells vorgestellt, das auf den Stärken seines Vorgängers Gemini 1.5 aufbaut und neue Funktionen wie native Bild- und Audioausgabe sowie die Nutzung von Tools integriert. Diese Neuerungen eröffnen Möglichkeiten für die Entwicklung sogenannter "agentic" KI-Agenten, die komplexe Aufgaben verstehen, planen und selbstständig ausführen können – immer unter menschlicher Aufsicht.
Gemini 1.0, das im Dezember 2023 vorgestellt wurde, markierte einen Meilenstein in der KI-Entwicklung, da es als erstes nativ multimodales Modell konzipiert war. Es ermöglichte die Verarbeitung und das Verständnis von Informationen aus verschiedenen Quellen wie Text, Video, Bildern, Audio und Code. Gemini 2.0 setzt diese Entwicklung fort und erweitert die Multimodalität um native Bild- und Audioausgabe. Dies bedeutet, dass Gemini 2.0 nicht nur Informationen aus verschiedenen Quellen verarbeiten kann, sondern auch selbstständig Bilder und Audio generieren kann. Ein Beispiel hierfür ist die verbesserte Text-to-Speech-Funktion (TTS), die mehrsprachige Audioausgaben ermöglicht.
Ein zentraler Aspekt von Gemini 2.0 ist die Entwicklung von sogenannten "agentic" KI-Agenten. Diese Agenten sind in der Lage, ihre Umgebung besser zu verstehen, vorausschauend zu denken und in unserem Auftrag – und unter unserer Kontrolle – zu handeln. Google demonstriert dies anhand verschiedener Forschungsprojekte wie Project Astra und Project Mariner. Project Astra erforscht die Möglichkeiten eines universellen KI-Assistenten auf Android-Geräten und wird zukünftig auch auf Prototypen von Datenbrillen getestet. Project Mariner hingegen konzentriert sich auf die Interaktion zwischen Mensch und KI im Browser und zeigt, wie Agenten komplexe Aufgaben im Web erledigen können.
Die experimentelle Version von Gemini 2.0 Flash steht Entwicklern bereits zur Verfügung und bietet verbesserte Leistung bei gleichzeitig niedrigen Latenzzeiten. Im Vergleich zu Gemini 1.5 Pro schneidet 2.0 Flash in wichtigen Benchmarks besser ab und ist dabei doppelt so schnell. Neben den bereits erwähnten multimodalen Ein- und Ausgaben, kann 2.0 Flash auch Tools wie die Google-Suche, Codeausführung und benutzerdefinierte Funktionen von Drittanbietern nutzen. Über die Gemini API in Google AI Studio und Vertex AI können Entwickler auf 2.0 Flash zugreifen.
Gemini 2.0 wird nach und nach in verschiedene Google Produkte integriert. Nutzer der Gemini App können bereits eine für Chat optimierte Version von 2.0 Flash nutzen. Auch die Google Suche profitiert von den Fortschritten von Gemini 2.0, insbesondere die KI-Overviews, die komplexere Fragen und mehrstufige Anfragen bearbeiten können, inklusive mathematischer Gleichungen, multimodaler Suchanfragen und Programmiercode.
Mit Gemini 2.0 setzt Google einen wichtigen Schritt in Richtung einer Zukunft, in der KI-Agenten unseren Alltag und unsere Arbeit unterstützen. Die Kombination aus Multimodalität, Tool-Nutzung und der Fähigkeit, komplexe Aufgaben zu verstehen und auszuführen, eröffnet ein breites Spektrum an Anwendungsmöglichkeiten. Die weitere Entwicklung von Gemini und ähnlichen KI-Modellen wird die Art und Weise, wie wir mit Technologie interagieren, grundlegend verändern.
Bibliographie: https://x.com/_akhaliq/status/1868792298831852028 https://twitter.com/_akhaliq/status/1868497090139357250 https://blog.google/technology/google-deepmind/google-gemini-ai-update-december-2024/ https://www.reddit.com/r/ChatGPT/comments/1hcklcb/try_this_amazing_gemini_20_voice_free/ https://www.theverge.com/2024/9/12/24243018/gemini-live-voice-mode-free-android https://techcrunch.com/2024/08/13/gemini-live-googles-answer-to-chatgpts-advanced-voice-mode-launches/ https://gemini.google.com/ https://www.linkedin.com/pulse/chatgpt-observer-edition-30-zeyad-sweidan-fsg1c https://www.youtube.com/watch?v=dxKNpVbVGb8 https://x.com/npaka123?lang=de