Fortgeschrittene KI im Dienst des Dokumentenverstehens

Kategorien:

No items found.

Freigegeben:

June 14, 2024

Artikel jetzt als Podcast anhören

In der wachsenden Landschaft der künstlichen Intelligenz ist die Verarbeitung und das Verständnis komplexer Dokumente mit reichhaltigen visuellen Strukturen zu einer signifikanten Herausforderung geworden. Geschäftsunterlagen wie Formulare, Rechnungen, Quittungen, Berichte und Verträge sind oftmals nicht nur textuell, sondern auch durch ihre räumliche Anordnung semantisch aufgeladen. Die visuellen Hinweise, die ihr komplexes Layout bietet, spielen eine entscheidende Rolle für das effektive Verständnis dieser Dokumente.

Forschern von JPMorgan ist es nun gelungen, einen bedeutenden Fortschritt in der Disziplin des Visually Rich Document Understanding (VrDU) zu erzielen. Sie präsentieren eine bahnbrechende Methode namens DocGraphLM – ein dokumentaler Graphsprachmodell, das speziell für die Informationsgewinnung aus strukturreichen Dokumenten entwickelt wurde.

DocGraphLM verbindet die Stärken vortrainierter Sprachmodelle mit der Semantik von Graphen. Dieser Ansatz ermöglicht es, Dokumente nicht nur als lineare Textfolgen, sondern als vernetzte Informationsstrukturen zu betrachten. Dabei wird eine gemeinsame Encoder-Architektur vorgeschlagen, um Dokumente zu repräsentieren, und ein neuartiger Ansatz zur Link-Vorhersage, um Dokumentengraphen zu rekonstruieren. DocGraphLM ist in der Lage, sowohl die Richtungen als auch die Abstände zwischen Knoten vorherzusagen, indem es eine konvergierende gemeinsame Verlustfunktion verwendet, die die Wiederherstellung der Nachbarschaft priorisiert und die Erkennung entfernter Knoten abwertet.

Die Forscher führten Experimente mit drei State-of-the-Art-Datensätzen durch und konnten konsistente Verbesserungen bei Informationsgewinnungs- und Frage-Antwort-Aufgaben feststellen, sobald Graphmerkmale integriert wurden. Darüber hinaus beschleunigte die Einführung der Graphmerkmale den Konvergenzprozess im Lernverlauf während des Trainings, obwohl diese Merkmale ausschließlich durch Linkvorhersage konstruiert wurden.

In einem weiteren bemerkenswerten Paper präsentierten Dongsheng Wang und sein Team DocLLM, ein layoutbewusstes generatives Sprachmodell für das multimodale Verständnis von Dokumenten. DocLLM ist eine leichte Erweiterung herkömmlicher großer Sprachmodelle (LLMs), die speziell für die Verarbeitung visueller Dokumente entwickelt wurde, unter Berücksichtigung von Textsemantik und räumlicher Anordnung. Im Gegensatz zu bestehenden multimodalen LLMs verzichtet dieses Modell auf teure Bildencoder und konzentriert sich ausschließlich auf Informationen zu Begrenzungsboxen, um die räumliche Layoutstruktur einzubeziehen. Die Kreuzausrichtung zwischen Text- und Raummodalitäten wird durch die Dekomposition des Aufmerksamkeitsmechanismus in klassischen Transformern in eine Reihe von entkoppelten Matrizen erfasst.

Das Modell wurde mit einem umfangreichen Anweisungsdatensatz trainiert und deckt vier Kernintelligenzaufgaben für Dokumente ab. Die Leistung von DocLLM übertraf die von State-of-the-Art LLMs in 14 von 16 Datensätzen über alle Aufgaben hinweg und zeigte eine gute Generalisierbarkeit auf 4 von 5 bisher nicht gesehenen Datensätzen.

Diese Fortschritte im Bereich des Verständnisses visuell reicher Dokumente sind nicht nur für die Forschung von Bedeutung, sondern haben auch das Potenzial, die Effizienz in einer Vielzahl von Geschäftsanwendungen zu steigern. Sie versprechen eine verbesserte Genauigkeit und Geschwindigkeit bei der Verarbeitung von Dokumenten und können somit zu einer Kostensenkung und einer höheren Kundenzufriedenheit führen.

Die Entwicklung solcher KI-gestützten Werkzeuge zur Dokumentenanalyse steht im Einklang mit dem Bestreben, menschenähnliche Fähigkeiten für Maschinen zu schaffen. Sie sind ein Beispiel dafür, wie KI-Technologie genutzt werden kann, um menschliche Experten zu unterstützen und zu entlasten, indem zeitaufwändige und fehleranfällige Aufgaben automatisiert werden.

Es bleibt abzuwarten, wie sich die Technologie weiterentwickeln wird und welche neuen Anwendungsfälle sich daraus ergeben könnten. Doch eines ist sicher: Die Arbeit von JPMorgan und das Paper von Wang und Kollegen repräsentieren einen bedeutenden Schritt nach vorne in der Welt des maschinellen Verständnisses und der Automatisierung komplexer Dokumentenprozesse.

Was bedeutet das?

Wie können wir Ihnen heute helfen?

Das Expertenteam von Mindverse freut sich darauf, Ihnen zu helfen.

Vorbereitete KI Lösungen für:

Marketing & PR Kreative & Designer Projektleiter

Recht & Finanzen Vertrieb & Kunden-Service Teams

Für Studenten Für Bildungseinrichtungen

Fortgeschrittene KI im Dienst des Dokumentenverstehens

Artikel jetzt als Podcast anhören

Wie können wir Ihnen heute helfen?

Die wachsende Relevanz der Autoren-Leser-Interaktion im digitalen Zeitalter

OpenAI erhält 40 Milliarden US-Dollar in historischer Finanzierungsrunde

DeepSeek V3 0324: Eine neue Ära der App-Entwicklung für alle

Neue Ansätze in der Rohstoffexploration durch Künstliche Intelligenz

Innovative Ansätze zur Videogenerierung durch skizzenbasierte Technologien

Demokratisierung der Bildung durch KI-gestützte Spieleentwicklung