RelBench Neuer Maßstab für Deep Learning in relationalen Datenbanken

Kategorien:
No items found.
Freigegeben:
August 5, 2024
RelBench: Ein Benchmark für Deep Learning auf Relationalen Datenbanken

RelBench: Ein Benchmark für Deep Learning auf Relationalen Datenbanken

Einführung

Relationale Datenbanken sind die am weitesten verbreiteten Datenbanksysteme und bilden das Rückgrat vieler digitaler Systeme. Ihre Popularität beruht auf der tabellarischen Speicherstruktur, die die Wartung erleichtert, und auf leistungsstarken Abfragesprachen wie SQL, die den Datenzugriff vereinfachen. Aufgrund ihrer weiten Verbreitung werden KI-Systeme in verschiedensten Bereichen, darunter E-Commerce, soziale Medien, Bankwesen, Gesundheitswesen, Fertigung und wissenschaftliche Open-Source-Repositorien, mit Daten betrieben, die in relationalen Datenbanken gespeichert sind.

Trotz der Bedeutung relationaler Datenbanken bleibt die reiche relationale Information oft ungenutzt, da es bisher kein Modell gibt, das die unterschiedlichen Datenbankstrukturen handhaben kann. Stattdessen werden die Daten in ein einfacheres Format wie eine einzige Tabelle „verflacht“, häufig durch manuelle Merkmalsextraktion, auf der dann Standard-Tabellenmodelle angewendet werden können. Dies führt zu einem erheblichen Verlust an prädiktiven Signalen und erfordert Datenextraktionspipelines, die häufig fehleranfällig sind und die Softwarekomplexität erhöhen.

Einführung von RelBench

Um das prädiktive Signal, das in den Beziehungen zwischen Entitäten kodiert ist, vollständig zu nutzen, wird vorgeschlagen, relationale Daten als exakte Graphdarstellung zu rekonstruieren, wobei ein Knoten für jede Entität in der Datenbank und Kanten für Primär-Fremdschlüssel-Beziehungen stehen. Diese Methode, Relational Deep Learning (RDL) genannt, ermöglicht die Verwendung von Graph Neural Networks (GNNs) als prädiktive Modelle. RDL stellt den ersten Ansatz dar, ein end-to-end lernbares neuronales Netzwerkmodell mit Zugriff auf alle möglichen prädiktiven Signale in einer relationalen Datenbank zu entwickeln und hat das Potenzial, neue Ebenen der prädiktiven Leistung zu erschließen. Die Entwicklung des relationalen Deep Learnings wird jedoch durch das Fehlen einer umfassenden Infrastruktur zur Unterstützung der Forschung begrenzt.

RelBench: Die Lösung

Hier kommt RelBench ins Spiel, der erste Benchmark für relationales Deep Learning. RelBench soll die grundlegende Infrastruktur für zukünftige Forschungen im Bereich des relationalen Deep Learnings bereitstellen, indem es eine umfassende Sammlung von Datenbanken aus verschiedenen Bereichen, darunter E-Commerce, Q&A-Plattformen, medizinische Datenbanken und Sportdatenbanken, bietet. Die RelBench-Datenbanken variieren in ihrer Größe und Struktur erheblich und decken unterschiedliche Zeiträume ab, was sie für eine Vielzahl von Anwendungsszenarien relevant macht. Jede Datenbank ist mit mehreren prädiktiven Aufgaben, insgesamt 30, ausgestattet, darunter Entitätsklassifikation, Entitätsregression und Empfehlung, die jeweils aufgrund ihrer realen Bedeutung ausgewählt wurden.

Zusätzlich zu den Datenbanken und Aufgaben veröffentlicht RelBench Open-Source-Software, die relationales Deep Learning für eine breite Öffentlichkeit zugänglich macht. Dies umfasst das RelBench Python-Paket für eine einfache Datenbank- und Aufgabenladung, die erste Open-Source-Implementierung des relationalen Deep Learnings und ein öffentliches Leaderboard zur Verfolgung des Fortschritts. Wir benchmarken unsere anfängliche RDL-Implementierung umfassend auf allen RelBench-Aufgaben und vergleichen sie mit verschiedenen Baselines.

Vergleich mit traditionellen Methoden

Die wichtigste Vergleichsbasis ist ein starker „Data Scientist“-Ansatz, bei dem wir einen erfahrenen Data Scientist rekrutierten, um jede Aufgabe durch manuelle Merkmalsextraktion und Einsatz von Tabellenmodellen zu lösen. Diese Methode ist derzeit der Goldstandard für den Aufbau prädiktiver Modelle auf relationalen Datenbanken. Die Studie, die wir zur Reproduzierbarkeit offenlegten, zeigt, dass RDL-Modelle die Modelle des Data Scientists in der Genauigkeit übertreffen oder zumindest gleichwertig sind, während die benötigten Arbeitsstunden um 96 % und die Codezeilen um 94 % reduziert werden. Dies stellt die erste empirische Demonstration des zentralen Versprechens von RDL dar und weist auf eine lang ersehnte end-to-end Deep Learning-Lösung für relationale Daten hin.

Technische Details und Designprinzipien

RelBench bietet eine Sammlung diverser realer relationaler Datenbanken sowie eine Reihe realistischer prädiktiver Aufgaben, die mit jeder Datenbank verknüpft sind. Konkret bieten wir:

- Relationale Datenbanken, bestehend aus einer Reihe von Tabellen, die über Primär-Fremdschlüssel-Beziehungen verbunden sind. Jede Tabelle enthält Spalten, die diverse Informationen über jede Entität speichern. Einige Tabellen enthalten auch Zeitspalten, die das Erstellungsdatum der Entität angeben. - Prädiktive Aufgaben über eine relationale Datenbank, definiert durch eine Trainingstabelle mit Spalten für Entitäts-ID, Seed-Zeit und Zielbeschriftungen. Die Seed-Zeit gibt an, zu welchem Zeitpunkt das Ziel vorhergesagt werden soll, wobei zukünftige Daten herausgefiltert werden.

Schlüsseldatenbanken und Aufgaben

Die Datenbanken und Aufgaben in RelBench wurden sorgfältig ausgewählt, um eine breite Palette realer Anwendungsszenarien und prädiktiver Aufgaben abzudecken. Zu den Datenbanken gehören unter anderem:

- E-Commerce-Datenbanken wie "rel-amazon" und "rel-avito" - Soziale Netzwerke wie "rel-stack" und "rel-event" - Medizinische Datenbanken wie "rel-trial" - Sportdatenbanken wie "rel-f1"

Jede Datenbank ist mit mehreren prädiktiven Aufgaben ausgestattet, die für ihre jeweiligen Domänen von Bedeutung sind. Diese Aufgaben umfassen Entitätsklassifikation, Entitätsregression und Empfehlung.

Implementierung und Nutzung

Die Nutzung von RelBench ist einfach und flexibel. Das Python-Paket von RelBench ermöglicht eine leichte Datenbank- und Aufgabenladung und ist mit verschiedenen Deep Learning-Frameworks kompatibel. Die erste Implementierung des relationalen Deep Learnings basiert auf PyTorch Geometric und PyTorch Frame und umfasst die Umwandlung der Daten in eine Graphstruktur und das Training von GNN-Modellen. Ein öffentliches Leaderboard ermöglicht die Verfolgung des Fortschritts und den Vergleich der Ergebnisse.

Fazit

RelBench stellt eine bedeutende Entwicklung im Bereich des relationalen Deep Learnings dar und bietet die notwendige Infrastruktur, um die prädiktive Leistung von Modellen auf relationalen Datenbanken zu verbessern. Durch die Bereitstellung standardisierter Benchmarks, Open-Source-Software und einer umfassenden Sammlung von Datenbanken und Aufgaben ermöglicht RelBench Forschern, effizientere und skalierbarere Deep Learning-Lösungen für komplexe multi-tabellarische Datensätze zu entwickeln. Die ersten Ergebnisse zeigen, dass RDL-Modelle die aktuellen Goldstandard-Modelle übertreffen oder zumindest gleichwertig sind, während sie den menschlichen Aufwand erheblich reduzieren.

Bibliographie

https://arxiv.org/abs/2407.20060 https://github.com/snap-stanford/relbench https://relbench.stanford.edu/ https://arxiv.org/html/2407.20060v1 https://relbench.stanford.edu/paper.pdf https://mobile.x.com/jure/status/1818327609828380777 https://arxiv-sanity-lite.com/?rank=pid&pid=2407.20060 https://chatpaper.com/chatpaper/paper/43378 https://www.marktechpost.com/2024/07/30/researchers-at-stanford-present-relbench-an-open-benchmark-for-deep-learning-on-relational-databases/ https://repositorio.inesctec.pt/bitstream/123456789/4540/1/P-00G-699.pdf
Was bedeutet das?