Neues Multi-Agenten-Framework zur Verbesserung der Web-zu-Tabelle-Informationssuche

Kategorien:

No items found.

Freigegeben:

May 5, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Der schnelle Überblick:

"Web2BigTable" ist ein neues Multi-Agenten-Framework, das darauf abzielt, die Web-zu-Tabelle-Informationssuche und -extraktion zu verbessern.
Es nutzt eine zweistufige Architektur mit einem übergeordneten Orchestrator und mehreren Worker-Agenten.
Das System lernt und entwickelt sich selbstständig durch einen "Run-Verify-Reflect"-Prozess weiter, ohne die zugrunde liegenden Large Language Models (LLMs) neu zu trainieren.
Web2BigTable erzielt verbesserte Ergebnisse bei der breit angelegten Informationssuche (WideSearch) und der tiefgehenden Informationssuche (DeepSearch).
Die Koordination der Worker-Agenten erfolgt über ein geteiltes "Workboard", das Redundanzen reduziert und inkonsistente Informationen abgleicht.

Revolution der Informationsbeschaffung: "Web2BigTable" und die Zukunft der Web-zu-Tabelle-Extraktion

Die Fähigkeit, Informationen aus dem Internet effizient zu suchen und in strukturierter Form zu extrahieren, stellt eine zentrale Herausforderung für Unternehmen und Forschungseinrichtungen dar. Insbesondere die Umwandlung von unstrukturierten Webdaten in tabellarische Formate, bekannt als Web-zu-Tabelle-Extraktion, ist ein Bereich von hoher praktischer Relevanz. Jüngste Entwicklungen im Bereich der Künstlichen Intelligenz (KI), insbesondere Large Language Models (LLMs) und Multi-Agenten-Systeme, bieten neue Ansätze zur Bewältigung dieser Komplexität. Eine aktuelle Veröffentlichung stellt hierbei ein innovatives Framework namens "Web2BigTable" vor, das darauf abzielt, die Effizienz und Genauigkeit dieser Prozesse signifikant zu steigern.

Die Herausforderung: Breite und Tiefe der Websuche

Die Websuche mit LLM-Agenten steht vor zwei grundlegenden Anforderungen: einerseits der tiefgehenden Argumentation über ein einzelnes Ziel, andererseits der strukturierten Aggregation über eine Vielzahl von Entitäten und heterogenen Quellen. Bestehende Systeme zeigen hierbei oft Limitationen. Breit angelegte Aufgaben erfordern schemakonforme Ausgaben mit umfassender Abdeckung und konsistenten Ergebnissen über verschiedene Entitäten hinweg. Tiefgehende Aufgaben hingegen verlangen eine kohärente Argumentation über lange, verzweigte Suchpfade. Die Schaffung einer strukturierten Tabelle aus Webdaten, basierend auf einer natürlichsprachlichen Anfrage, stellt eine solche Web-zu-Tabelle-Konstruktion dar, die beide Suchregime integriert.

Web2BigTable: Eine bi-level Multi-Agenten-Architektur

Das "Web2BigTable"-Framework adressiert diese Herausforderungen durch eine neuartige bi-level Multi-Agenten-Architektur. Diese Architektur gliedert sich in zwei Hauptkomponenten:

Einen übergeordneten Orchestrator: Dieser ist für die Zerlegung der Hauptaufgabe in kleinere, unabhängige Unterprobleme zuständig.
Mehrere untergeordnete Worker-Agenten: Diese lösen die Unterprobleme parallel und koordinieren ihre Aktivitäten über einen gemeinsamen Arbeitsbereich.

Das System ist darauf ausgelegt, sich durch einen geschlossenen "Run-Verify-Reflect"-Prozess selbstständig weiterzuentwickeln. Dieser Prozess verfeinert kontinuierlich sowohl die Aufgabenzerlegung als auch die Ausführung der Worker-Agenten. Eine zentrale Eigenschaft ist dabei die Nutzung eines persistenten, menschenlesbaren externen Speichers zur Adaption, anstatt die zugrunde liegenden LLMs neu zu trainieren. Dies ermöglicht eine flexible und kosteneffiziente Anpassung des Systems.

Selbstentwicklung durch adaptives Lernen

Die Fähigkeit zur Selbstentwicklung ist ein Kernmerkmal von Web2BigTable. Während einer Trainingsphase, die mit einer kleinen Menge von Anfragen und Referenztabellen durchgeführt wird, lernt das System, seine Fähigkeiten zu verbessern. Dieser Prozess umfasst:

Orchestrator-Fähigkeiten: Der Orchestrator entwickelt Strategien zur effizienteren Aufgabenzerlegung. Diese werden als menschenlesbare SKILL.md-Dateien gespeichert.
Worker-Fähigkeiten: Die Worker-Agenten erwerben wiederverwendbare Fähigkeiten für Informationsbeschaffung, Beweisprüfung und Zwischensynthese. Auch diese werden in SKILL.md-Dateien abgelegt.

Die Anpassung erfolgt ausschließlich über diesen externen Speicher, was die zugrunde liegenden LLMs während des gesamten Prozesses "eingefroren" lässt. Dies bedeutet, dass keine aufwendigen und ressourcenintensiven Gradienten-Updates erforderlich sind.

Koordination und gemeinsamer Arbeitsbereich

Ein entscheidender Aspekt für die Effizienz von Web2BigTable ist der Mechanismus der Koordination zwischen den Worker-Agenten. Diese erfolgt über ein sogenanntes "Workboard", ein geteiltes Markdown-Dokument. Dieses Workboard dient als temporärer Arbeitsspeicher und ermöglicht es den Agenten, Teilergebnisse sichtbar zu machen und so Redundanzen zu vermeiden, widersprüchliche Informationen abzugleichen und auf neu auftretende Informationslücken zu reagieren. Die asynchrone Interaktion der Agenten auf diesem Workboard fördert die Zusammenarbeit und Skalierbarkeit des Systems.

Die asymmetrische Lese- und Schreibweise auf dem Workboard, bei der alle Worker die gesamte Tafel lesen, aber nur in ihren zugewiesenen Bereich schreiben können, fördert mehrere adaptive Verhaltensweisen:

Vermeidung von Redundanzen: Ein Worker, der bereits von einem anderen Agenten extrahierte Entitäten erkennt, vermeidet redundante Suchen.
Erkennung von Abdeckungslücken: Durch die Überprüfung der Ergebnisse anderer Agenten kann ein aktiver Worker fehlende Felder oder Inkonsistenzen identifizieren und seine Suchstrategie dynamisch anpassen.
Strategieanpassung: Worker können erfolgreiche Muster (z.B. effektive URLs, Suchformulierungen) von Peers übernehmen und weniger erfolgreiche Ansätze meiden.

Leistung und Anwendungsbereiche

Die Leistungsfähigkeit von Web2BigTable wurde anhand von zwei Benchmarks evaluiert:

WideSearch: Ein Benchmark für breit angelegte Suchaufgaben. Hier erreichte Web2BigTable nach eigenen Angaben des Systems einen Avg@4 Success Rate von 38.50, einen Row F1 von 63.53 und einen Item F1 von 80.12, was eine deutliche Verbesserung gegenüber vorherigen Bestleistungen darstellt.
XBench-DeepSearch: Ein Benchmark für tiefgehende Suchaufgaben. Auch hier zeigte Web2BigTable eine hohe Genauigkeit von 73.0%.

Diese Ergebnisse deuten darauf hin, dass die Architektur von Web2BigTable sowohl für Aufgaben geeignet ist, die eine breite Abdeckung erfordern, als auch für solche, die eine tiefe, kohärente Argumentation über komplexe Informationen verlangen.

Implikationen für B2B-Anwendungen

Für Unternehmen im B2B-Sektor, die auf umfassende und präzise Datenextraktion angewiesen sind, bietet Web2BigTable potenzielle Vorteile. Die Fähigkeit, große Mengen heterogener Webdaten in strukturierte Tabellen zu überführen, kann in verschiedenen Bereichen Anwendung finden:

Marktanalyse und Wettbewerbsbeobachtung: Automatisierte Sammlung und Strukturierung von Produktinformationen, Preisen und Kundenrezensionen von verschiedenen Online-Quellen.
Compliance und Risikomanagement: Extraktion relevanter Informationen aus regulatorischen Dokumenten, Nachrichtenarchiven und Unternehmensberichten zur Überwachung von Compliance-Anforderungen und Risikofaktoren.
Forschung und Entwicklung: Beschleunigung der Informationsbeschaffung für wissenschaftliche Studien, Patentanalysen und Technologietrends durch die effiziente Aggregation von Fachartikeln und Forschungsdaten.
Finanzdienstleistungen: Gewinnung von Unternehmensdaten, Marktindikatoren und Nachrichtenereignissen für die Finanzanalyse und Entscheidungsfindung.

Die Architektur, die auf externen, menschenlesbaren Gedächtnissen basiert und keine Neuschulung der LLMs erfordert, kann zudem zu einer erhöhten Transparenz und Kontrollierbarkeit der extrahierten Informationen beitragen. Dies ist insbesondere in regulierten Branchen von Bedeutung, in denen die Nachvollziehbarkeit von Datenquellen und Extraktionsprozessen essenziell ist.

Fazit

Das "Web2BigTable"-Framework stellt einen wichtigen Fortschritt im Bereich der Web-zu-Tabelle-Informationssuche und -extraktion dar. Durch seine bi-level Multi-Agenten-Architektur, die selbstentwickelnden Fähigkeiten und die effiziente Koordination der Agenten bietet es eine skalierbare und leistungsstarke Lösung für die Herausforderungen der Informationsbeschaffung im Internet. Die erzielten Ergebnisse und die breiten Anwendungsmöglichkeiten im B2B-Bereich unterstreichen das Potenzial dieser Technologie, die Art und Weise, wie Unternehmen und Organisationen auf große Mengen von Webdaten zugreifen und diese nutzen, zu transformieren.

Bibliographie

- Huang, Y., Chen, Y., He, Z., Chen, Y., Lee, K. Y., Zhou, H., Luo, W., Fang, M., & Wang, J. (2026). Web2BigTable: A Bi-Level Multi-Agent LLM System for Internet-Scale Information Search and Extraction. arXiv preprint arXiv:2604.27221. - Huang, Y., Chen, Y., He, Z., Chen, Y., Lee, K. Y., Zhou, H., Luo, W., Fang, M., & Wang, J. (2026). Web2BigTable: A Bi-Level Multi-Agent LLM System for Internet-Scale Information Search and Extraction. Hugging Face Papers. - Huang, Y., Chen, Y., He, Z., Chen, Y., Lee, K. Y., Zhou, H., Luo, W., Fang, M., & Wang, J. (2026). Web2BigTable: A Bi-Level Multi-Agent LLM System for Internet-Scale Information Search and Extraction. GitHub Repository. - Huang, Y., Chen, Y., He, Z., Chen, Y., Lee, K. Y., Zhou, H., Luo, W., Fang, M., & Wang, J. (2026). [Literature Review] Web2BigTable: A Bi-Level Multi-Agent LLM System for Internet-Scale Information Search and Extraction. The Moonlight. - Huang, Y., Chen, Y., He, Z., Chen, Y., Lee, K. Y., Zhou, H., Luo, W., Fang, M., & Wang, J. (2026). Web2BigTable: A Bi-Level Multi-Agent LLM System for Internet-Scale Information Search and Extraction. Databubble News. - Huang, Y., Chen, Y., He, Z., Chen, Y., Lee, K. Y., Zhou, H., Luo, W., Fang, M., & Wang, J. (2026). Web2BigTable: A Bi-Level Multi-Agent LLM System for Internet-Scale Information Search and Extraction. Opentrain AI. - Tao, Z., Shen, H., Li, B., Yin, W., Wu, J., Li, K., Zhang, Z., Yin, H., Ye, R., Zhang, L., Wang, X., Xie, P., Zhou, J., & Jiang, Y. (2025). WebLeaper: Empowering Efficiency and Efficacy in WebAgent via Enabling Info-Rich Seeking. arXiv preprint arXiv:2510.24697.