In den letzten Jahren hat sich Apple zunehmend auf die Forschung und Entwicklung im Bereich der künstlichen Intelligenz (KI) konzentriert. Diese Ausrichtung ist besonders bemerkenswert, da Apple sich traditionell als Hardware- und Softwareunternehmen positioniert hat. Doch die jüngsten Entwicklungen in Apples Forschungslabors zeigen, dass das Unternehmen erhebliche Fortschritte im Bereich der KI macht, die das Potenzial haben, die Art und Weise, wie wir Technologie nutzen, grundlegend zu verändern.
Eine der bemerkenswertesten Entwicklungen ist das System ReALM (Reference Resolution As Language Modeling), das von Apple-Forschern entwickelt wurde. Dieses System kann mehrdeutige Verweise auf Bildschirmobjekte sowie konversationellen und Hintergrundkontext verstehen und somit natürlichere Interaktionen mit Sprachassistenten ermöglichen. ReALM nutzt große Sprachmodelle, um die komplexe Aufgabe der Referenzauflösung in ein reines Sprachmodellierungsproblem zu verwandeln. Diese Methode ermöglicht erhebliche Leistungssteigerungen im Vergleich zu bestehenden Ansätzen.
Laut einem von den Forschern veröffentlichten Papier, ist das Verständnis von Kontexten, einschließlich visueller Verweise, für einen konversationellen Assistenten von entscheidender Bedeutung. Indem das System den Bildschirm rekonstruiert, kann es eine textuelle Darstellung erzeugen, die das visuelle Layout erfasst. Diese Innovation ermöglicht es, dass ReALM Modelle wie GPT-4 in der Aufgabe der Referenzauflösung übertrifft.
Die Forschung unterstreicht das Potenzial spezialisierter Sprachmodelle, Aufgaben wie die Referenzauflösung in Produktionssystemen zu bewältigen, wo der Einsatz massiver End-to-End-Modelle aufgrund von Latenz- oder Rechenbeschränkungen nicht praktikabel ist. Dennoch weisen die Forscher darauf hin, dass die automatische Analyse von Bildschirmen ihre Grenzen hat. Komplexere visuelle Verweise, wie die Unterscheidung mehrerer Bilder, würden wahrscheinlich die Integration von Computer Vision und multimodalen Techniken erfordern.
Während Apple bedeutende Fortschritte in der KI-Forschung macht, steht das Unternehmen im Wettbewerb mit Technologiegiganten wie Google, Microsoft, Amazon und OpenAI, die generative KI aggressiv in Suchmaschinen, Bürosoftware, Cloud-Diensten und mehr einsetzen. Apple, das traditionell eher ein schneller Nachfolger als ein Erstentwickler ist, befindet sich nun in einem Markt, der sich mit atemberaubender Geschwindigkeit durch KI verändert.
Anlässlich der weltweit beachteten Worldwide Developers Conference im Juni wird erwartet, dass Apple ein neues Rahmenwerk für große Sprachmodelle, einen "Apple GPT"-Chatbot und andere KI-gestützte Funktionen innerhalb seines Ökosystems vorstellt. Diese Entwicklungen könnten zeigen, dass Apple trotz seiner charakteristischen Geheimhaltung eine breite Palette an KI-Aktivitäten verfolgt.
In einem weiteren Forschungspapier stellen Apple-Wissenschaftler HUGS (Human Gaussian Splats) vor, eine Methode zur Erstellung animierter 3D-Avatare aus kurzen monokularen Videos. Diese Technologie ermöglicht es, sowohl den Menschen als auch die Hintergrundszene mithilfe von 3D-Gaussian-Splatting darzustellen, einer effizienten Rendertechnik. HUGS ermöglicht die Erstellung von Avataren aus Videos, die mit einer einzigen Kamera aufgenommen wurden, und bietet fotorealistische Ergebnisse nach nur 30 Minuten Optimierung auf einer typischen Gaming-GPU.
Die Technologie eröffnet neue Möglichkeiten für virtuelle Anproben, Telepräsenz und synthetische Medien. Die Echtzeitleistung und die Fähigkeit, Avatare aus Videos in der freien Wildbahn zu erstellen, könnten in naher Zukunft innovative Anwendungen auf mobilen Geräten ermöglichen.
In einem weiteren Papier befassen sich Apple-Forscher mit der Herausforderung, große Sprachmodelle auf Geräten mit begrenztem Speicher einzusetzen. Moderne Sprachmodelle wie GPT-4 enthalten Hunderte Milliarden von Parametern, was die Inferenz auf Verbrauchshardware teuer macht. Das vorgeschlagene System minimiert den Datentransfer vom Flash-Speicher in den knappen DRAM während der Inferenz und verbessert die Inferenzlatenz um das 4-5-fache auf einer Apple M1 Max CPU und um das 20-25-fache auf einer GPU.
Diese Durchbrüche sind besonders wichtig für den Einsatz fortschrittlicher Sprachmodelle in ressourcenbeschränkten Umgebungen und erweitern deren Anwendbarkeit und Zugänglichkeit. Die Optimierungen könnten es bald ermöglichen, komplexe KI-Assistenten und Chatbots nahtlos auf iPhones, iPads und anderen mobilen Geräten auszuführen.
Die vorgestellten Forschungsergebnisse zeigen Apples zunehmende Führungsrolle in der KI-Forschung und -Anwendung. Während diese Entwicklungen vielversprechend sind, warnen Experten, dass Apple bei der Integration dieser Technologien in Verbraucherprodukte große Sorgfalt walten lassen muss. Von Datenschutzmaßnahmen bis hin zur Minderung von Missbrauch müssen die gesellschaftlichen Auswirkungen berücksichtigt werden.
Durch die Veröffentlichung dieser Forschung trägt Apple zur breiteren KI-Community bei, was weitere Fortschritte in diesem Bereich stimulieren könnte. Dieser Schritt spiegelt Apples Vertrauen in seine Position als Technologieführer und sein Engagement, die Grenzen des Möglichen zu erweitern.
Wenn diese Innovationen verantwortungsvoll angewendet werden, könnte Apple die künstliche Intelligenz auf die nächste Stufe heben. Fotorealistische digitale Avatare und leistungsstarke KI-Assistenten auf tragbaren Geräten schienen einst weit entfernt – doch dank Apples Wissenschaftlern wird die Zukunft schnell zur Realität.