SELECT: Ein neuer Ansatz zur systematischen Datenpflege in der Bildklassifizierung

Kategorien:

No items found.

Freigegeben:

October 9, 2024

Artikel jetzt als Podcast anhören

Datenpflege im Fokus: SELECT – Ein Benchmark für Bildklassifizierungsstrategien

In der sich rasant entwickelnden Welt der Künstlichen Intelligenz (KI) spielt die Qualität der Trainingsdaten eine entscheidende Rolle. Insbesondere im Bereich des maschinellen Lernens ist die Auswahl und Aufbereitung der Daten für die Leistungsfähigkeit der Modelle von immenser Bedeutung. Ein vielversprechender Ansatz zur Optimierung dieses Prozesses ist die gezielte Datenpflege, auch bekannt als Data Curation. Doch fehlte es bisher an einer Möglichkeit, verschiedene Strategien der Datenpflege systematisch zu vergleichen und zu bewerten. Genau hier setzt SELECT an, ein neuer Benchmark, der die Evaluierung und den Vergleich verschiedener Datenpflegestrategien für die Bildklassifizierung ermöglicht.

SELECT und ImageNet++: Ein neuer Maßstab für Datenpflege

Entwickelt von einem Forscherteam unter der Leitung von Benjamin Feuer, stellt SELECT den ersten groß angelegten Benchmark dar, der sich der Datenpflege im Kontext der Bildklassifizierung widmet. Um SELECT mit Leben zu füllen und aussagekräftige Vergleiche zu ermöglichen, wurde ein neuer Datensatz ins Leben gerufen: ImageNet++. Dieser Datensatz basiert auf ImageNet-1K, einem der bekanntesten Datensätze für die Bildklassifizierung, und erweitert ihn um fünf neue Trainingsdatensätze, die jeweils die gleiche Größe wie ImageNet-1K selbst aufweisen. Jeder dieser neuen Datensätze wurde mithilfe einer anderen Datenpflegestrategie zusammengestellt, um die Bandbreite der Möglichkeiten abzubilden. So umfasst ImageNet++ Datensätze, die aus Open Images, einem riesigen Bilddatensatz von Google, mithilfe von CLIP-Embeddings, einer Methode zur Kombination von Bild- und Textinformationen, oder durch die Generierung synthetischer Daten entstanden sind.

Bewertung der Datenpflegestrategien: Von der Genauigkeit bis zum Transferlernen

Die Bewertung der Datenpflegestrategien erfolgt in SELECT auf zwei Arten. Zum einen werden mit jedem Trainingsdatensatz identische Modelle für die Bildklassifizierung von Grund auf trainiert. Zum anderen werden die Daten selbst verwendet, um eine vortrainierte selbstüberwachte Repräsentation anzupassen. Die Ergebnisse zeigen interessante Trends, insbesondere im Hinblick auf neuere Methoden der Datenpflege wie die Generierung synthetischer Daten und die Suche auf Basis von CLIP-Embeddings. Obwohl diese Strategien für bestimmte Aufgaben sehr konkurrenzfähig sind, zeigt sich, dass die für die Zusammenstellung des ursprünglichen ImageNet-1K-Datensatzes verwendete Strategie nach wie vor der Goldstandard ist. SELECT ist jedoch nicht nur auf die Bewertung der Genauigkeit von Modellen beschränkt. Der Benchmark umfasst auch die Evaluierung von Datensätzen in Bezug auf ihre Nützlichkeit für das Transferlernen, also die Fähigkeit eines Modells, auf neuen, ähnlichen Aufgaben zu lernen.

Fazit: SELECT als Wegbereiter für effizientere KI-Modelle

Mit der Einführung von SELECT und ImageNet++ wurde ein wichtiger Schritt in Richtung einer systematischen und vergleichenden Analyse von Datenpflegestrategien gemacht. Die Ergebnisse des Benchmarks unterstreichen die Bedeutung der Datenpflege für die Leistungsfähigkeit von KI-Modellen und zeigen gleichzeitig, dass die Wahl der optimalen Strategie von der jeweiligen Aufgabe abhängt. SELECT liefert wertvolle Erkenntnisse für die Entwicklung robusterer und effizienterer KI-Modelle und ebnet den Weg für neue Methoden und Ansätze in der Datenpflege. Durch die Bereitstellung von Code, Dokumentation und dem Datensatz selbst, ermöglicht es SELECT der Forschungsgemeinschaft, auf den Ergebnissen aufzusetzen und die Entwicklung neuer, innovativer Datenpflegestrategien voranzutreiben.

Bibliographie

Huang, B., Yu, Y., Huang, J., Zhang, X., & Ma, J. (2024). DCA-Bench: A Benchmark for Dataset Curation Agents. *arXiv preprint arXiv:2406.07275*. Feuer, B., Xu, J., Cohen, N., Yubeaton, P., Mittal, G., & Hegde, C. (2024). SELECT: A Large-Scale Benchmark of Data Curation Strategies for Image Classification. *arXiv preprint arXiv:2410.05057*. Ramanujan, V., Zhang, H., Yang, Y., Farhadi, A., Toshev, A. T., Schmidt, L., ... (2023). Data Curation for Large Scale Detection Pretraining. *OpenReview*. Gupta, D. K., Bamba, U., Thakur, A., Gupta, A., Agarwal, R., Sharan, S., ... (2024). An UltraMNIST classification benchmark to train CNNs for very large images. *Scientific Data*, *11*(1), 771. Sahota, H. (2024, April 30). CVPR 2024 Datasets and Benchmarks - Part 2: Benchmarks. *Voxel51 Blog*. Retrieved from https://voxel51.com/blog/cvpr-2024-datasets-and-benchmarks-part-2-benchmarks/ Xu, J. (2024). *SELECT: A Large-Scale Benchmark of Data Curation Strategies for Image Recognition*. [GitHub repository]. Retrieved from https://github.com/jimmyxu123/select.

Was bedeutet das?