Innovative Ansätze zur Verarbeitung unstrukturierter Daten mit DocETL

Kategorien:

No items found.

Freigegeben:

October 22, 2024

Die Analyse unstrukturierter Daten, wie z. B. komplexer Dokumente, stellt seit Langem eine Herausforderung in der Datenverarbeitung dar. Große Sprachmodelle (LLMs) haben in dieser Hinsicht vielversprechende Ergebnisse gezeigt, was zu neuen Vorschlägen für deklarative Frameworks für die LLM-gestützte Verarbeitung unstrukturierter Daten geführt hat. Diese Frameworks konzentrieren sich jedoch eher darauf, die Kosten bei der Ausführung benutzerdefinierter Operationen mithilfe von LLMs zu senken, als die Genauigkeit zu verbessern, da die meisten Operationen unverändert ausgeführt werden. Dies ist problematisch für komplexe Aufgaben und Daten, bei denen die Ausgaben von LLMs für benutzerdefinierte Operationen selbst mit optimierten Eingabeaufforderungen oft ungenau sind.

Ein neuer Ansatz für die Dokumentenverarbeitung

In diesem Kontext gewinnt DocETL, ein System zur Optimierung komplexer Dokumentverarbeitungspipelines unter Berücksichtigung der Grenzen von LLMs, an Bedeutung. DocETL bietet eine deklarative Schnittstelle, über die Benutzer solche Pipelines definieren können. Anschließend nutzt es ein agentenbasiertes Framework, um diese automatisch zu optimieren. Dabei kommen neuartige agentenbasierte Umschreibungen (sogenannte "Rewrite Directives") und ein Optimierungs- und Bewertungsframework zum Einsatz. DocETL zeichnet sich durch drei wesentliche Innovationen aus: - Logische Umschreibung von Pipelines, die auf LLM-basierte Aufgaben zugeschnitten sind - Ein agentengestützter Planbewertungsmechanismus, der aufgabenspezifische Validierungseingabeaufforderungen synthetisiert und orchestriert - Ein Optimierungsalgorithmus, der unter Berücksichtigung der Zeitbeschränkungen bei der LLM-basierten Plangenerierung und -bewertung effizient vielversprechende Pläne findet

Überzeugende Ergebnisse in der Praxis

Die Evaluierung von DocETL anhand von drei verschiedenen Aufgaben zur Analyse unstrukturierter Dokumente zeigt, dass das System Pläne mit Ausgaben findet, die eine 1,34- bis 4,6-fach höhere Qualität (z. B. genauere, umfassendere) aufweisen als gut durchdachte Basismodelle. Dies adressiert eine kritische Lücke in bestehenden deklarativen Frameworks für die Analyse unstrukturierter Daten. DocETL ist als Open-Source-Projekt verfügbar und hat bis Oktober 2024 bereits über 800 GitHub-Sterne von Anwendern aus verschiedenen Bereichen erhalten.

DocETL als Teil eines größeren Trends

Die Entwicklung von DocETL ist eingebettet in den anhaltenden Wettstreit zwischen GPU-reichen großen Unternehmen (Deepmind, OpenAI) und GPU-ärmeren Compound-KI-Ansätzen. Die DocETL-Demo-Website ermöglicht es Benutzern, Ergebnisse und Ansätze der Verwendung des Frameworks mit dem "Alles in den Kontext stecken"-Ansatz zu vergleichen. Es ist wahrscheinlich, dass es auf absehbare Zeit keinen eindeutigen Sieger geben wird und KI-Ingenieure mit beiden Ansätzen vertraut sein müssen.

Fazit

DocETL stellt einen bedeutenden Fortschritt in der Analyse unstrukturierter Daten mithilfe von LLMs dar. Durch die Adressierung von Genauigkeitsbeschränkungen durch Umschreibungsrichtlinien und agentenbasierte Optimierung ermöglicht es Anwendern, komplexe Dokumentverarbeitungsprozesse zuverlässig zu bewältigen. Die positive Resonanz in der Open-Source-Community unterstreicht das Potenzial von DocETL, die Art und Weise, wie wir mit unstrukturierten Daten umgehen, grundlegend zu verändern. ## Quellenangaben - Shankar, S., Parameswaran, A. G., & Wu, E. (2024). DocETL: Agentic Query Rewriting and Evaluation for Complex Document Processing. *arXiv preprint arXiv:2410.12189*. - Shankar, S. [@sh_reya]. (21. Oktober 2024). Our (first) DocETL preprint is now on Arxiv! "DocETL: Agentic Query Rewriting and Evaluation for Complex Document Processing" https://arxiv.org/abs/2410.12189 It has been almost 2 years in the making, so I am very happy we hit this milestone :-) [Tweet]. Twitter. https://twitter.com/i/status/1848415442244931861

Was bedeutet das?