Mindverse
News

InternVL 1.5: Ein neues Zeitalter für multimodale Großsprachenmodelle in der KI

April 26, 2024
In der Welt der künstlichen Intelligenz hat sich in den letzten Jahren eine bemerkenswerte Entwicklung vollzogen. Mit der Einführung des neuen multimodalen Großsprachenmodells (MLLM) namens InternVL 1.5 von OpenGVLab, das auf der Plattform Hugging Face gehosted wird, wird eine Brücke zwischen Open-Source- und kommerziellen proprietären Modellen geschlagen. Dieses Modell, das von der KI-Community mit Spannung erwartet wurde, wird als ein bahnbrechender Fortschritt in der KI-Forschung und -Entwicklung angesehen. InternVL 1.5, ein multimodales Großsprachenmodell, ist darauf ausgelegt, komplexe visuelle und sprachliche Aufgaben zu bearbeiten. Es handelt sich um eine Weiterentwicklung der vorherigen Versionen, die bereits beeindruckende Fähigkeiten bei der visuellen Fragebeantwortung demonstriert haben. Das Modell ist ausgestattet mit einer Architektur, die die Bildverarbeitungsfähigkeiten von InternViT-6B-448px-V1-2 mit einer mehrschichtigen Perzeptron (MLP)- und Nous-Hermes-2-Yi-34B-Struktur kombiniert. Die Fähigkeit, Bilder mit einer Auflösung von 448x448 Pixel zu verarbeiten, ermöglicht dem Modell das Erkennen und Verstehen von komplexen Bildinhalten. InternVL 1.5 hat die Fähigkeit, auf ein breites Spektrum von visuellen und sprachlichen Daten zu reagieren, was durch die Verwendung eines SFT-Datensatzes mit 12 Millionen Samples in der "Plus"-Version des Modells ermöglicht wurde. Eine der herausragenden Eigenschaften von InternVL 1.5 ist die Fähigkeit, Bilder in hoher Auflösung zu verarbeiten und gleichzeitig eine starke OCR (Optical Character Recognition)-Kompetenz zu bieten. Dieses leistungsstarke Merkmal ermöglicht es dem Modell, Text in Bildern präzise zu erkennen und zu verarbeiten, was in verschiedenen Benchmark-Tests wie MMMU, DocVQA, ChartQA und MathVista zu beobachten ist. Das Training von InternVL 1.5 umfasste eine Reihe von Datensätzen, darunter COYO, LAION, CC12M, CC3M, SBU, Wukong, GRIT, Objects365, OpenImages und OCR-Daten. Diese umfassende Datengrundlage ermöglichte es dem Modell, eine breite Palette von Fähigkeiten zu erlernen und sich an verschiedene Aufgaben anzupassen. Insbesondere die Einbeziehung von OCR-Daten hebt die Leistungsfähigkeit des Modells im Umgang mit Text in Bildern hervor. Die Bereitstellung von InternVL 1.5 auf Hugging Face erleichtert Forschern und Entwicklern den Zugang zu diesem fortschrittlichen Modell. Nutzer können das Modell über die Transformers-Bibliothek verwenden und es für eine Vielzahl von Anwendungen einsetzen, einschließlich der Bearbeitung von visuellen Fragen und Antworten sowie der Generierung von Bildbeschreibungen. Das Open-Source-Modell InternVL 1.5 ist ein bedeutender Schritt nach vorn im Bereich der KI und zeigt das Potenzial von Open-Source-Initiativen, mit kommerziellen Modellen zu konkurrieren. Es ist ein Beweis für die kollektiven Bemühungen der KI-Community, fortschrittliche Technologien zu entwickeln und zugänglich zu machen. Die Entwicklung von InternVL 1.5 ist auch ein Indikator für die wachsende Bedeutung von multimodalen Modellen in der KI. Diese Modelle, die in der Lage sind, Informationen aus verschiedenen Modalitäten wie Text, Bild und Ton zu verarbeiten, sind entscheidend für die Schaffung von KI-Systemen, die menschenähnliche Verständnis- und Interaktionsfähigkeiten aufweisen. Es ist zu erwarten, dass InternVL 1.5 und ähnliche Modelle die Art und Weise, wie wir mit KI interagieren, weiterhin verändern werden. Mit verbesserten Fähigkeiten zur Bild- und Sprachverarbeitung werden solche Modelle zunehmend in Bereichen wie automatisierten Kundendienstsystemen, Bildungstechnologie und multimedialem Content-Management eingesetzt werden. Für die KI-Forschung und -Entwicklung stellt InternVL 1.5 einen Meilenstein dar, und es wird spannend sein zu sehen, welche Durchbrüche und Anwendungen in naher Zukunft aus dieser und ähnlichen Initiativen hervorgehen werden. Quellen: - Hugging Face OpenGVLab Community-Seite: https://huggingface.co/OpenGVLab - Hugging Face Modell-Seite für InternVL-Chat-V1.5: https://huggingface.co/OpenGVLab/InternVL-Chat-V1-5 - GitHub-Seite für InternVL 1.5: https://github.com/OpenGVLab/InternVL

Erfahren Sie in einer kostenlosen Erstberatung wie unsere KI-Tools Ihr Unternehmen transformieren können.

Relativity benötigt die Kontaktinformationen, die Sie uns zur Verfügung stellen, um Sie bezüglich unserer Produkte und Dienstleistungen zu kontaktieren. Sie können sich jederzeit von diesen Benachrichtigungen abmelden. Informationen zum Abbestellen sowie unsere Datenschutzpraktiken und unsere Verpflichtung zum Schutz Ihrer Privatsphäre finden Sie in unseren Datenschutzbestimmungen.