Wettlauf der Sprachmodelle Künstliche Intelligenz auf der Überholspur

Kategorien:

No items found.

Freigegeben:

June 14, 2024

Artikel jetzt als Podcast anhören

Im Bereich der Künstlichen Intelligenz (KI) hat sich in den letzten Jahren ein spannender Wettbewerb entwickelt, der an das Wettrüsten der Technologieunternehmen im Silicon Valley erinnert. Bei diesem Wettbewerb geht es darum, das leistungsfähigste und intelligenteste Sprachmodell zu entwickeln. Die jüngste Nachricht, die in der KI-Community für Aufsehen sorgt, ist die Ankündigung von Claude-3 Haiku, einem neuen Sprachmodell von AnthropicAI, das in Sachen Benutzerpräferenz auf Augenhöhe mit GPT-4 zu sein scheint.

Die KI-Plattform lmsys.org hat kürzlich über 70.000 neue Bewertungen in ihrer "Arena" erhalten, einer Plattform, auf der Nutzer die Möglichkeit haben, verschiedene KI-Modelle anhand von direkten Vergleichen zu bewerten. Claude-3 Haiku, eine der neuesten Entwicklungen von AnthropicAI, hat dabei so beeindruckt, dass es laut Nutzerbewertungen mit dem bisherigen Spitzenreiter GPT-4 mithalten kann. Dies ist insbesondere deshalb bemerkenswert, da GPT-4 als eines der fortschrittlichsten Sprachmodelle gilt, das bisher auf dem Markt verfügbar ist.

Claude-3 Haiku sticht durch seine Geschwindigkeit, Fähigkeiten und die Länge des Kontextes, den es verarbeiten kann, hervor. Diese Eigenschaften machen es zu einem ernstzunehmenden Konkurrenten im Bereich der Sprachmodelle. AnthropicAI hat außerdem zwei weitere Modelle auf den Markt gebracht: Claude-3 Opus und Claude-3 Sonnet. Diese Modelle setzen neue Maßstäbe in den Bereichen logisches Denken, Mathematik, Programmierung, mehrsprachiges Verständnis und Bilderkennung.

Die Bewertung von KI-Modellen ist ein komplexer Prozess und oft mit Herausforderungen verbunden, wie zum Beispiel der Gefahr der Datenkontamination. Dieses Problem tritt auf, wenn Modelle, bewusst oder unbewusst, auf Antworten trainiert werden, die auf öffentlich zugänglichen Leaderboards basieren. Um eine faire und unverfälschte Bewertung zu gewährleisten, hat lmsys.org ein Crowdsourcing-Verfahren implementiert. Nutzer können auf ihrer Plattform Fragen stellen und erhalten Antworten von zwei unterschiedlichen Modellen, deren Identität verborgen bleibt. Anschließend stimmen sie für die überzeugendere Antwort ab. Diese Methode der Evaluation basiert auf direkter menschlicher Präferenz und vermeidet das Risiko der Kontamination, da jede Frage neu ist.

Die Ergebnisse der neuesten Bewertungsrunde zeigen, dass Claude-3 Opus GPT-4 übertrumpft hat und somit das erste Sprachmodell ist, das seit der Veröffentlichung von GPT-4 vor einem Jahr eine höhere Bewertung erzielen konnte. GPT-4 Turbo bleibt jedoch mit einem komfortablen Vorsprung von etwa 20 Punkten an der Spitze. Auch die Modelle von Mistral AI, insbesondere Mistral Large, haben eine beeindruckende Leistung gezeigt und rangieren auf dem dritten Platz aller bewerteten Unternehmen.

Diese Entwicklungen zeigen, wie dynamisch und wettbewerbsorientiert das Feld der KI-Sprachmodelle ist. Unternehmen wie OpenAI, das hinter GPT-4 steht, dürften den Druck der Konkurrenz durch neue und innovative Modelle wie Claude-3 Haiku spüren. Es ist ein fortwährendes Rennen, bei dem jedes Unternehmen versucht, die Leistungsfähigkeit und Vielseitigkeit seiner Modelle zu verbessern, um an der Spitze der Branche zu bleiben.

Die Fortschritte in der KI-Forschung und -Entwicklung sind für Unternehmen wie Mindverse von besonderer Bedeutung, da sie maßgeschneiderte Lösungen wie Chatbots, Voicebots, AI-Suchmaschinen und Wissenssysteme entwickeln. Die Erkenntnisse aus solchen Bewertungen können dabei helfen, die Qualität der angebotenen Dienstleistungen zu verbessern und sicherzustellen, dass die KI-Partner von Mindverse stets auf dem neuesten Stand der Technik sind.

Quellen:
- Golem.de (2023). "Anthropic KI-Chatbot Claude-3 soll besser als GPT-4 sein." Verfügbar unter: https://www.golem.de/news/anthropic-ki-chatbot-claude-3-soll-besser-als-gpt-4-sein-2403-182855.html
- Twitter: lmsysorg (2024). [Arena Update] Verfügbar unter: https://twitter.com/lmsysorg/status/1764670277437558838
- Reddit: r/singularity (2023). "Chatbot Arena updated: Claude-3 Opus failed to take..." Verfügbar unter: https://www.reddit.com/r/singularity/comments/1b8yucm/chatbot_arena_updatedclaude_3_opus_failed_to_take/
- LinkedIn: Aymeric Roucher (2024). "Claude-3 rankings published on Chatbot Arena." Verfügbar unter: https://www.linkedin.com/posts/a-roucher_%3F%3F%3F%3F%3F%3F-%3F-%3F%3F%3F%3F%3F%3F%3F%3F-%3F%3F%3F%3F%3F%3F%3F%3F%3F-activity-7171860760086720512-DPnV

Was bedeutet das?