Durchbruch in der KI-Kontextverarbeitung: Subquadratic stellt neues Modell vor

Kategorien:

No items found.

Freigegeben:

June 21, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

Ein neues KI-Modell des Unternehmens Subquadratic erreicht eine Kontextlänge von bis zu 12 Millionen Tokens bei einem signifikant reduzierten Rechenaufwand.
Die Technologie basiert auf einer neuartigen "Subquadratic Sparse Attention" (SSA), die im Vergleich zu herkömmlichen Mechanismen bis zu 1000-fach effizienter sein soll.
Diese Effizienz ermöglicht es KI-Modellen, ganze Dokumente, Codebasen oder Verträge zu verarbeiten, ohne die hohen Kosten und Leistungseinschränkungen traditioneller Ansätze.
Das Modell "SubQ 1.1 small" zeigt hohe Genauigkeit bei Aufgaben wie "Needle in a Haystack" und beeindruckende Leistungen in Benchmarks für wissenschaftliches Reasoning und Programmierung.
Die neue Architektur könnte die Entwicklung von Unternehmens-KI grundlegend verändern, indem sie "Whole-Artifact Reasoning" praktikabel macht und die Notwendigkeit komplexer Retrieval-Systeme reduziert.

Revolutionäre Fortschritte in der KI-Kontextverarbeitung: Ein Paradigmenwechsel?

Die Fähigkeit von Künstlichen Intelligenzen, große Mengen an Informationen zu verarbeiten und zu interpretieren, stellt einen zentralen Engpass in der Entwicklung leistungsfähiger Modelle dar. Aktuelle Berichte deuten auf einen signifikanten Durchbruch hin: Ein neues KI-Modell des Unternehmens Subquadratic soll eine Kontextlänge von bis zu 12 Millionen Tokens bei einem um das Tausendfache reduzierten Rechenaufwand erreichen. Diese Entwicklung könnte weitreichende Implikationen für die Anwendung von KI in verschiedenen Branchen haben und verdient eine detaillierte Betrachtung.

Die Herausforderung der Kontextlänge in Large Language Models (LLMs)

Herkömmliche Transformer-Architekturen, die das Fundament vieler moderner Large Language Models (LLMs) bilden, nutzen einen sogenannten Aufmerksamkeitsmechanismus ("Attention"). Dieser Mechanismus vergleicht jedes Token eines Inputs mit jedem anderen Token, um Beziehungen und Abhängigkeiten innerhalb des Textes zu erkennen. Die Komplexität dieser Operation skaliert quadratisch mit der Länge des Inputs. Das bedeutet, dass sich der Rechenaufwand nicht linear, sondern exponentiell erhöht, wenn die Eingabelänge zunimmt. Eine Verdopplung der Input-Länge führt zu einer Vervierfachung des Aufwands.

Diese quadratische Skalierung ist der Hauptgrund dafür, dass das Verarbeiten sehr langer Texte – wie ganzer Codebasen, komplexer Rechtsverträge oder umfangreicher Finanzdokumente – für LLMs extrem rechenintensiv und kostspielig ist. Unternehmen setzen daher oft auf Workarounds wie Retrieval-Augmented Generation (RAG), Chunking, Vektordatenbanken und komplexe Orchestrierungsschichten, um relevante Informationen aus großen Dokumenten zu extrahieren und den Modellen in kleineren, handhabbaren Segmenten zuzuführen. Diese Infrastruktur ist jedoch nicht ohne Nachteile, da sie implizite Annahmen darüber trifft, welche Informationen relevant sind, und dabei wichtige Kontexte verlieren kann.

Subquadratic Sparse Attention (SSA): Der Kern der Innovation

Das Unternehmen Subquadratic behauptet, dieses grundlegende Problem mit seiner neuen Technologie namens "Subquadratic Sparse Attention" (SSA) gelöst zu haben. Im Gegensatz zum traditionellen Aufmerksamkeitsmechanismus, der alle Tokenpaare vergleicht, lernt SSA, welche Beziehungen tatsächlich relevant sind, und berechnet nur diese. Dies führt zu einer linearen Skalierung des Rechenaufwands, anstatt einer quadratischen.

Der entscheidende Unterschied zu früheren Ansätzen der spärlichen Aufmerksamkeit liegt in der dynamischen und inhaltsbasierten Auswahl der relevanten Tokenpaare. Frühere Methoden basierten oft auf festen Mustern oder positionsgebundenen Fenstern, was dazu führen konnte, dass wichtige Informationen außerhalb dieser vordefinierten Bereiche übersehen wurden. SSA soll hingegen auf der Bedeutung des Inhalts selbst basieren, wodurch eine präzisere und effizientere Auswahl ermöglicht wird.

Ein weiterer wichtiger Aspekt ist, dass sowohl der Auswahl- als auch der Aufmerksamkeitsmechanismus bei SSA linear skalieren. Dies unterscheidet es von Systemen, bei denen zwar die spärliche Aufmerksamkeit effizient ist, der Selektionsmechanismus selbst jedoch weiterhin quadratische Kosten verursacht und somit das Problem lediglich verlagert, anstatt es zu lösen.

Leistung und Effizienz des Modells "SubQ 1.1 small"

Subquadratic hat kürzlich das Modell "SubQ 1.1 small" veröffentlicht, das als das kleinste Modell in ihrer aktuellen Reihe gilt. Die Testergebnisse dieses Modells sind bemerkenswert:

Kontextlänge: Das Modell erreicht eine Genauigkeit von 100 % bei 1 Million und 2 Millionen Tokens sowie 98 % bei 6 Millionen und 12 Millionen Tokens in "Needle in a Haystack"-Tests. Dies ist besonders hervorzuheben, da das Modell primär für 1 Million Tokens trainiert wurde und die hohe Leistung bei 12 Millionen Tokens eine "Out-of-Distribution"-Fähigkeit demonstriert.
Recheneffizienz: Bei 12 Millionen Tokens verarbeitet das Modell nur 0,13 % aller möglichen Tokenpaare, was zu einer Reduzierung des Aufmerksamkeits-Rechenaufwands um fast das 1000-fache führt. Bei 1 Million Tokens wird eine Reduzierung um das 64-fache im Vergleich zu dichter Aufmerksamkeit auf einer einzelnen Aufmerksamkeits-Schicht festgestellt.
Vergleich mit Flash Attention 2: SSA erreicht bei etwa 16.000 Tokens die gleiche Geschwindigkeit wie Flash Attention 2, eine hochoptimierte Implementierung der traditionellen Aufmerksamkeit. Bei 1 Million Tokens ist SSA auf einer einzelnen Aufmerksamkeits-Schicht 56-mal schneller.

Diese Effizienzgewinne ermöglichten Subquadratic, über 100 Langkontext-Experimente über sechs Modellgenerationen hinweg durchzuführen – ein Iterationsgrad, der mit traditionellen Methoden bei diesen Kontextlängen normalerweise nicht möglich wäre.

Benchmarking und Anwendungsbereiche

Die Leistungsfähigkeit von "SubQ 1.1 small" wurde auch in breiteren Benchmarks evaluiert:

GPQA Diamond: Auf diesem wissenschaftlichen Benchmark für Absolventen erzielt das Modell 85,4 %, was es in die Nähe von Modellen wie GPT 5.5 und Opus 4.8 rückt und die Fähigkeit zum wissenschaftlichen Reasoning bei extremen Kontextlängen unterstreicht.
LiveCodeBench v6: Bei Programmieraufgaben erreicht "SubQ 1.1 small" 89,7 % (pass@4), was es leicht vor Sonnet 4.6 und GPT 5.4 positioniert.
Automation Bench Finance: In einem für Geschäftsanwendungen relevanten Benchmark, der die Navigation durch API-Endpunkte und die Einhaltung von Geschäftsregeln testet, erreicht das Modell 13 %. Obwohl dies unter den führenden Modellen liegt, ist es für ein spezialisiertes Modell eine beachtliche Leistung.

Diese Ergebnisse wurden von dem unabhängigen Benchmarking-Unternehmen Appen verifiziert, um die Glaubwürdigkeit der Angaben zu untermauern.

Implikationen für die Unternehmens-KI und zukünftige Entwicklungen

Sollten sich die Angaben von Subquadratic in der Praxis bestätigen, könnten die Auswirkungen auf die Unternehmens-KI substanziell sein. Derzeitige KI-Infrastrukturen sind stark darauf ausgelegt, die Einschränkungen der quadratischen Aufmerksamkeit zu umgehen. Wenn Modelle in der Lage sind, ganze Dokumente – seien es Verträge, Codebasen, Finanzunterlagen oder interne Wissensdatenbanken – direkt zu verarbeiten, könnte dies das "Whole-Artifact Reasoning" praktikabel machen.

Dies würde bedeuten, dass KI-Systeme den gesamten Kontext eines Dokuments verstehen können, anstatt sich auf Fragmente zu verlassen, die von Retrieval-Pipelines ausgewählt wurden. Die Notwendigkeit komplexer RAG-Systeme und Vektordatenbanken könnte für bestimmte Anwendungsfälle, bei denen der gesamte Kontext innerhalb des Kontextfensters eines Modells liegt, reduziert werden. Retrieval-Systeme würden weiterhin für sehr große Datenmengen, sich schnell ändernde Daten oder mehrstufige Workflows relevant bleiben.

Subquadratic plant, größere Modelle mit Kontextfenstern von 2 Millionen bis 12 Millionen Tokens noch in diesem Jahr zu veröffentlichen. Das Unternehmen hat zudem 29 Millionen US-Dollar an Seed-Finanzierung erhalten, was das Vertrauen von Investoren in diese Technologie unterstreicht.

Fazit und Ausblick

Die Ankündigungen von Subquadratic stellen einen potenziellen Wendepunkt in der Entwicklung von Large Language Models dar. Die Fähigkeit, extrem lange Kontexte bei deutlich reduziertem Rechenaufwand zu verarbeiten, könnte die Art und Weise, wie Unternehmen KI einsetzen, grundlegend verändern. Es bleibt abzuwarten, wie sich diese Technologie in realen Produktionsumgebungen bewährt und ob sie die hohen Erwartungen erfüllen kann. Die kommenden Monate werden zeigen, ob Subquadratic einen echten Paradigmenwechsel eingeleitet hat oder ob die Herausforderungen der Langkontextverarbeitung weiterhin komplexer Natur bleiben.

Bibliography: - The First Real LLM Breakthrough Is Here… SubQ (1000x Less Compute) – Science & Tech Super Aggregate News Site (https://scitech.whatfinger.com/2026/06/18/the-first-real-llm-breakthrough-is-here-subq-1000x-less-compute/) - Revolutionary AI Reaches 12 Million Tokens Using 1000x Less Computational Power - Learn AI With Kesse | Best Place For AI News (https://learnaiwithkesse.wiki/revolutionary-ai-reaches-12-million-tokens-using-1000x-less-computational-power/) - Shocking New AI Just Hit 12 Million Tokens With 1000x Less Compute - My Living AI (https://www.mylivingai.com/shocking-new-ai-just-hit-12-million-tokens-with-1000x-less-compute/) - MiniMax M3 Takes Open-Weight AI Lead: Sparse Attention Architecture Now Verified (https://techtimes.com/articles/318622/20260618/minimax-m3-takes-open-weight-ai-lead-sparse-attention-architecture-now-verified.htm) - MiniMax M3 Explained: 1M Token Context at 1/20th the Cost - CodeLucky (https://codelucky.com/minimax-m3-explained-1-million-token-context/) - MiniMax Sparse Attention (https://arxiv.org/html/2606.13392v1) - MiniMax M3: The Open-Weight 1M-Context Coding Model — TeqVolt (https://teqvolt.com/ai-news/minimax-m3-open-weight-1m-context-coding-model)