Gemini Live Die neue Ära intelligenter Sprachassistenten

Kategorien:
No items found.
Freigegeben:
August 17, 2024

Gemini Live: Die Zukunft der Sprachassistenten

Einführung in Gemini Live

Google hat kürzlich eine beeindruckende Palette neuer Hardware vorgestellt, darunter die Pixel 9-Smartphones und neue drahtlose Ohrhörer. Im Zentrum dieser technologischen Neuerungen steht Geminis künstlich intelligenter Assistent. Diese fortschrittliche Sprachassistenz ist nun auf den Pixel 9-Geräten standardmäßig vorinstalliert und bereits auf Millionen von Android-Smartphones weltweit verfügbar. Doch ein besonders aufregendes Feature, das jetzt ausgerollt wird, ist Gemini Live.

Was ist Gemini Live?

Gemini Live ist eine Antwort von Google auf OpenAIs GPT-4o, die es ermöglicht, natürlich mit dem Assistenten zu sprechen – ähnlich wie bei einem echten Gespräch zwischen zwei Menschen. Es wird derzeit in Englisch für Abonnenten von Gemini Advanced ($20 pro Monat) ausgerollt und kann über die Schaltfläche "Live" unten rechts in der Gemini-App aktiviert werden. In den kommenden Wochen wird es auch für die iOS-App und in weiteren Sprachen verfügbar sein.

Hintergrund und Entwicklung

Sissie Hsiao, Vizepräsidentin von Gemini Experiences bei Google, erklärt, dass dieser Chatbot nicht einfach eine erweiterte Version des Google Assistant ist. Stattdessen handelt es sich um eine völlig neu entwickelte Schnittstelle, die auf generativer KI basiert. „Über die Jahre hinweg haben uns die Nutzer zwei Dinge immer wieder gefragt“, sagt Hsiao. „Erstens wollen sie einen flüssigeren und natürlicheren Assistenten – sie möchten ohne Anpassung ihrer Sprache mit ihm reden können. Zweitens soll er fähiger sein und ihnen helfen, ihre Lebensprobleme zu lösen, nicht nur einfache Aufgaben.“

Die Funktionen von Gemini Live

Beim Start von Gemini Live erscheint ein leerer Bildschirm mit einem ätherischen Licht, das von unten aufleuchtet. Man kann den Assistenten starten und ein Gespräch beginnen, auch wenn das Telefon gesperrt ist und der Bildschirm ausgeschaltet bleibt. Gemini Live ist auch über die neuen Pixel Buds Pro 2 drahtlos zugänglich, sodass man freihändig sprechen kann, während das Telefon in der Tasche bleibt. Es gibt zehn verschiedene Stimmen zur Auswahl, die sich in Ton, Akzent und Stil unterscheiden. Nach dem Ende der Sitzung wird eine Transkription des gesamten Gesprächs angezeigt, auf die jederzeit in der Gemini-App zugegriffen werden kann.

Unterbrechungen und Verknüpfungen

Im Gegensatz zu älteren Sprachassistenten erlaubt Gemini Live Unterbrechungen im Gespräch, ohne das gesamte Erlebnis zu stören. Das ist besonders nützlich, da Gemini dazu neigt, lange Antworten zu geben. Die Idee ist, den Assistenten mit anderen Apps über Erweiterungen zu verbinden, obwohl viele dieser Funktionen noch nicht verfügbar sind. Beispielsweise wird man in der Lage sein, Gemini Live zu bitten, eine Partyeinladung in Gmail aufzurufen und nach Zeit und Ort zu fragen, anstatt sie selbst herauszusuchen. Oder nach einem Rezept zu suchen und die Zutaten auf eine Einkaufsliste in Google Keep zu setzen. Google sagt, dass diese Erweiterungen für Apps wie Keep, Tasks, Utilities, Calendar und YouTube Music in den kommenden Wochen erscheinen werden.

Projekt Astra und Computer Vision

Später im Jahr wird Google Gemini Live mit Project Astra ausstatten, einer Computer-Vision-Technologie, die auf der Entwicklerkonferenz im Mai vorgestellt wurde. Damit kann man die Kamera-App des Telefons verwenden und in Echtzeit Fragen zu den Objekten stellen, die man in der realen Welt betrachtet. Stellen Sie sich vor, Sie gehen an einem Konzertplakat vorbei und bitten den Assistenten, die Daten in Ihrem Kalender zu speichern und eine Erinnerung zu setzen, um Tickets zu kaufen.

Erfahrungen und Nutzung

Unsere bisherigen Erfahrungen mit Sprachassistenten waren weitgehend transaktional. Wenn ich mit Gemini Live spreche, finde ich es zunächst seltsam, ein Gespräch mit dem Bot zu beginnen. Es ist ein großer Schritt über das hinaus, was Google Assistant oder Alexa bisher angeboten haben – wie etwa den Wetterbericht zu erfragen oder die Jalousien zu öffnen. Man könnte hier und da eine Folgefrage haben, aber es war nicht auf den Fluss eines Gesprächs ausgelegt, wie es bei Gemini Live der Fall ist. Hsiao erzählt, dass sie Gemini Live gerne im Auto auf der Heimfahrt von der Arbeit nutzt. Sie begann ein Gespräch über die Olympischen Spiele in Paris und über Celine Dion, die bei der Eröffnungsfeier sang. „Kannst du mir ein wenig über das Lied erzählen, das sie gesungen hat?“ fragte Hsiao. Die KI antwortete mit der Herkunft des Liedes, dem Autor und was es bedeutete, und nach einigem Hin und Her erfuhr Hsiao, dass Celine Dion auf Chinesisch singen kann. „Ich war so überrascht“, sagt sie. „Aber das zeigt nur, wie man Dinge herausfinden kann; es ist eine Interaktion mit Technologie, die die Menschen vorher nicht hatten – diese Art von Neugier und Erkundung durch Gespräche. Das ist erst der Anfang dessen, wohin wir mit dem Gemini-Assistenten gehen.“

Praktische Anwendung

In meiner Demo fragte ich Gemini, was ich zum Abendessen essen sollte. Es fragte, ob ich etwas Leichtes und Erfrischendes oder eine herzhafte Mahlzeit möchte. Wir gingen hin und her, und als Gemini ein Garnelengericht vorschlug, log ich und sagte, ich sei allergisch gegen Garnelen, woraufhin es Lachs empfahl. Ich sagte, ich hätte keinen Lachs. „Du könntest immer Hühnchenbrust grillen und sie in einem Salat mit gegrilltem Salat und einem leichten Vinaigrette-Dressing werfen.“ Ich bat um ein Rezept und es begann, die Anweisungen Schritt für Schritt durchzugehen. Ich unterbrach es, aber ich kann später in die Gemini-App zurückgehen, um das Rezept zu finden. Ich kann mir vorstellen, diesen Ansatz jetzt zu verfolgen, wenn ich etwas lernen möchte, und das Gespräch einfach fortzusetzen, auch nachdem Gemini meine ursprüngliche Frage beantwortet hat. Ich habe immer noch viele Bedenken: Warum gibt es keine direkte Quellenangabe oder Herkunft für die Informationen, die es hervorbringt? Kann ich darauf vertrauen, dass alles, was es sagt, korrekt ist? Hsiao sagt, wenn man Gemini Live verlässt, kann man auf das kleine „G“-Symbol unter dem transkribierten Text klicken, um seine Arbeit zu überprüfen und eigene Google-Suchen durchzuführen. Aber immer mehr denke ich, dass dies die Zukunft der Suche ist. Man fragt einfach, bekommt die Antworten und spricht weiter, um mehr zu erfahren. Das Problem ist, dass Gemini dazu neigt, viel zu reden. Seine Antworten sind langatmig, und man wartet oft eine Weile, bevor man nachfragen kann. Ja, man kann es unterbrechen, um weiterzumachen, aber es ist unangenehm, einen Sprachassistenten zu unterbrechen. Ich möchte nicht unhöflich sein!

Wo bleibt der Google Assistant?

Bei all dem Fokus auf Gemini und Gemini Live fragt man sich wahrscheinlich: Wo bleibt der Google Assistant? Wenn man auf das Profil-Symbol in der Gemini-App tippt, sieht man eine Option, um zum Google Assistant zu wechseln, wenn man zur alten Erfahrung zurückkehren möchte, aber es ist schwer zu sagen, wie lange diese Option verfügbar sein wird. Derzeit gibt es einige Dinge, die der Assistant kann, die Gemini nicht kann, sodass es eine Übergabe von einem zum anderen gibt. Hsiao sagt, „zunehmend wird Gemini in der Lage sein, diese Aktionen eigenständig auszuführen.“ Doch Anfang dieses Monats kündigte Google neue Nest-Produkte an, die auch die Nachricht brachten, dass der Google Assistant bald eine natürlichere Stimme bekommen wird und einige seiner Funktionen mit den großen Sprachmodellen von Gemini aufgerüstet werden. Man könnte ihn zum Beispiel fragen, ob ein FedEx-Zusteller an der Tür war, und er könnte dies aus dem Videofeed der Türklingel herauslesen. Bewegungsalarme könnten weitaus detaillierter sein, anstatt nur „Person erkannt“ zu sagen. Das bedeutet, dass wir jetzt zwei Assistenten haben, und es klingt, als wäre Google damit im Moment völlig einverstanden. Hsiao sagt, Gemini wird Ihr persönlicher Assistent sein, derjenige, den Sie nach Kalenderterminen, E-Mail-Einladungen fragen können, alles auf der Grundlage Ihrer persönlichen Daten. Im Haushalt ist der Google Assistant Ihr „gemeinschaftlicher“ Assistent, da er eher ein Familiengerät ist. „Die Leute wollen nicht, dass ihre persönlichen E-Mails über eine Stimme auf einem Lautsprecher im Wohnzimmer zugänglich sind, wo ein Gast fragen könnte: ‚Hey Google, was steht in Julians E-Mail?‘“ Das klingt nach einem Rezept für ein Branding-Desaster. Es ist bereits so schwer, alle Varianten von Gemini im Auge zu behalten, die bereits draußen sind (und vergessen Sie nicht, Gemini war „Bard“, als es letztes Jahr in der Vorschau gestartet wurde). Es könnte auch bedeuten, dass bestimmte Funktionen basierend auf dem verwendeten Gerät eingeschränkt sind, um zu verhindern, dass ein Gast in Ihren E-Mails schnüffelt. Wenn Sie sich daran gewöhnen, Ihren Gemini auf Ihrem Telefon zu bitten, eine Aufgabe zu erledigen, aber dann Ihr Telefon in einem anderen Raum lassen und der Assistant auf Ihrem Nest-Lautsprecher nicht mitmacht, ist das nicht frustrierend?

Abschluss und Ausblick

„Wir erkunden immer noch das Branding und befinden uns noch in den frühen Entwicklungsphasen“, sagt Hsiao. „Unabhängig vom Branding müssen wir sicherstellen, dass die Menschen das bekommen, was sie von ihrem hilfreichsten Assistenten erwarten, sei es auf ihrem persönlichen Telefon oder im Haushalt, und dass er ihre Anwendungsfälle löst.“ Gemini Live stellt einen bedeutenden Fortschritt in der Entwicklung von Sprachassistenten dar und bietet eine Vielzahl von Funktionen, die das tägliche Leben erleichtern und bereichern können. Mit kontinuierlichen Updates und Erweiterungen wird Gemini Live zweifellos eine immer wichtigere Rolle in unserem digitalen Alltag spielen.

Bibliografie

https://www.zdnet.com/article/gemini-live-is-finally-available-heres-how-you-can-access-it-and-why-youll-want-to/ https://blog.google/products/gemini/made-by-google-gemini-ai-updates/ https://www.cnet.com/videos/hands-on-with-gemini-ai-features-and-gemini-live/ https://www.youtube.com/watch?v=OYhQxF_UxNw https://www.pocket-lint.com/how-to-use-gemini-live/ https://store.google.com/intl/en/ideas/articles/gemini-advanced-features/ https://gemini.google.com/faq https://support.google.com/gemini/answer/14579631?hl=en https://www.youtube.com/watch?v=RN2ps4327G0
Was bedeutet das?