Dokumentenintelligenz der Zukunft: JPMorgans revolutionäres Layout-bewusstes Sprachmodell DocLLM

Kategorien:

No items found.

Freigegeben:

June 14, 2024

Artikel jetzt als Podcast anhören

00:00 / 00:00

In der Welt der Informationstechnologie und künstlichen Intelligenz schreitet die Entwicklung rasant voran. Ein besonders spannendes Feld ist dabei die Verarbeitung und das Verständnis von Dokumenten. Unternehmen wie JPMorgan stehen vor der Herausforderung, aus einer Vielzahl von Dokumenten wie Formularen, Rechnungen, Quittungen, Berichten und Verträgen wichtige Informationen zu extrahieren und nutzbar zu machen. Diese Dokumente sind nicht nur wegen ihres Inhalts, sondern auch aufgrund ihrer komplexen Struktur und ihres Layouts von Bedeutung. Um hier effizienter zu werden, hat JPMorgan kürzlich ein neues, layoutbewusstes Sprachmodell vorgestellt: DocLLM.

Das Besondere an DocLLM ist, dass es nicht nur den Text eines Dokuments versteht, sondern auch dessen räumliches Layout berücksichtigt. Während viele bisherige Ansätze multimodale Sprachmodelle einsetzen, die teure Bildencoder verwenden, konzentriert sich DocLLM ausschließlich auf die Informationen, die in den Begrenzungsrahmen (Bounding Boxes) der Textelemente enthalten sind. Dadurch kann das Modell die Anordnung und die Beziehungen zwischen den Textbausteinen eines Dokuments besser erfassen.

Die Basis für DocLLM bildet das klassische Transformer-Modell, das für die Verarbeitung von Sprache optimiert ist. Die Neuerung liegt in der Erweiterung dieses Modells, um die räumliche Anordnung der Textelemente zu berücksichtigen. Dazu wird der Aufmerksamkeitsmechanismus der Transformer in eine Reihe von entkoppelten Matrizen zerlegt, die jeweils eine andere Dimension der Daten repräsentieren – eine Dimension für die Textsemantik und eine für das Layout.

Ein weiterer innovativer Aspekt von DocLLM ist das vorgeschlagene Pre-Training-Ziel, das darauf abzielt, Textsegmente innerhalb eines Dokuments auszufüllen. Diese Methode ist besonders hilfreich, um mit unregelmäßigen Layouts und heterogenen Inhalten umzugehen, wie sie in visuellen Dokumenten häufig vorkommen. Nachdem das Modell auf diese Weise vortrainiert wurde, wird es mit einem großen Datensatz von Anweisungen feinabgestimmt, der vier zentrale Aufgaben der Dokumentenintelligenz abdeckt.

Die Forscher von JPMorgan konnten zeigen, dass DocLLM die bisherigen State-of-the-Art-Sprachmodelle (SotA LLMs) bei 14 von 16 Datensätzen übertrifft und bei vier von fünf zuvor nicht gesehenen Datensätzen gut verallgemeinert. Dies ist ein bedeutender Fortschritt, da es zeigt, dass DocLLM effektiv für eine breite Palette von Dokumenten verwendet werden kann, ohne dass das Modell speziell für jede neue Dokumentenart angepasst werden muss.

Die Entwicklung von DocLLM steht nicht isoliert da. Ein ähnlicher Ansatz wurde im Paper "MAGMA – Multimodal Augmentation of Generative Models through Adapter-based Finetuning" vorgestellt. Hier wurde ein Verfahren entwickelt, um generative Sprachmodelle durch Adapter-basiertes Feintuning mit zusätzlichen Modalitäten zu erweitern. Dieser Ansatz setzt auf ein vollständig end-to-end Pretraining mit einem einzigen Sprachmodellierungsziel und erreicht dabei herausragende Ergebnisse bei generativen Aufgaben.

Die Fortschritte im Bereich des multimodalen Dokumentenverständnisses zeigen das enorme Potenzial von künstlicher Intelligenz in der Verarbeitung und Analyse von Informationen. Es ist zu erwarten, dass Unternehmen, die solche Technologien nutzen, einen erheblichen Wettbewerbsvorteil erlangen können, indem sie effizienter und genauer auf die in ihren Dokumenten enthaltenen Informationen zugreifen. Es bleibt jedoch abzuwarten, wie sich diese Technologien weiterentwickeln und welche neuen Anwendungsfälle sie ermöglichen werden.

Was bedeutet das?

Wie können wir Ihnen heute helfen?

Das Expertenteam von Mindverse freut sich darauf, Ihnen zu helfen.

No items found.