Für Teams, Einzelnutzer, Kanzleien und Transkription – derselbe Mindverse Look, klar aufgeteilt nach Anwendungsfall.
für Teams und Unternehmen
Die Plattform für Unternehmen, die eigene KI-Workflows, Wissensdatenbanken und Assistenten produktiv einsetzen möchten.
für Einzelnutzer und Creator
Der einfachste Einstieg in das Mindverse-Ökosystem für Content, Recherche, Bilder, Audio und produktives Arbeiten.
für Juristen und Kanzleien
Die spezialisierte KI-Lösung für juristische Recherche, Vertragsarbeit und kanzleispezifische Workflows.
für Audio, Meetings und Transkription
Schnelle KI-Transkription für Audiodateien und Meetings – ideal zum sofortigen Start oder für regelmäßige Nutzung.

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Das Team von LeRobot bei Hugging Face hat kürzlich durch ein von Jong Hyun Park erstelltes Video auf sich aufmerksam gemacht, das tiefgehende Einblicke in ihre Forschungs- und Entwicklungsarbeit im Bereich der Robotik bietet. Die Präsentation beleuchtet insbesondere innovative Methoden zur Verbesserung der Roboterplanung durch den Einsatz von künstlicher Intelligenz. Im Fokus steht die Entwicklung von Systemen, die in der Lage sind, komplexe Aufgaben in dynamischen Umgebungen präziser und flexibler auszuführen.
Traditionelle Ansätze in der Robotik, wie Reinforcement Learning (RL) und Behavior Cloning (BC), haben in spezifischen Anwendungsbereichen Erfolge erzielt. Jedoch stehen diese Methoden vor erheblichen Herausforderungen, wenn es um die Generalisierung auf neue, unerwartete Umgebungen oder Aufgaben geht. RL erfordert oft eine immense Anzahl von Trainingsversuchen und das manuelle Design von Belohnungsfunktionen, was in realen Szenarien oft unpraktikabel ist. Behavior Cloning, obwohl effektiver bei der Nutzung von Überwachungssignalen, ist typischerweise auf einzelne Aufgaben beschränkt und scheitert bei geringsten Änderungen in der Umgebung.
Selbst fortgeschrittene Ansätze wie Roboter-Foundation-Modelle, die auf riesigen Datensätzen trainiert werden, zeigen in der Praxis oft Schwierigkeiten bei der Anpassung an neue Umgebungen. Ein Experiment des LeRobot-Teams demonstrierte, dass ein solches Modell, selbst wenn es auf eine spezifische Roboterplattform trainiert wurde, im Zero-Shot-Modus in einer leicht veränderten Umgebung versagt. Eine Feinabstimmung mit 50 Demonstrationen verbesserte die Leistung zwar, war aber immer noch langsam und nicht vollständig erfolgreich.
Angesichts dieser Generalisierungsprobleme wendet sich die Forschung zunehmend visuellen generativen Modellen zu. Diese Modelle, insbesondere Video-Diffusionsmodelle, haben in der Bild- und Videogenerierung erhebliche Fortschritte gemacht und zeigen eine bemerkenswerte Fähigkeit zur Generalisierung über verschiedene Szenarien hinweg. Die Hypothese lautet, dass diese Modelle auch für die Roboterplanung genutzt werden könnten, um flexiblere und anpassungsfähigere Aktionspläne zu erstellen.
Ein zentrales Problem bestehender sprachgesteuerter Video-generativer Modelle ist jedoch ihre Schwierigkeit, komplexe Sprachbefehle, insbesondere solche, die räumliche Überlegungen und Beziehungen beinhalten, korrekt zu interpretieren. Beispiele hierfür sind Anweisungen wie "Falte das Tuch von unten nach oben" oder "Platziere den blauen Quader in die obere linke Ecke des Tisches". Diese Modelle interpretieren solche Anweisungen oft falsch oder führen die Aufgaben in der falschen Richtung aus.
Um diese Einschränkung zu überwinden, hat das LeRobot-Team eine neue Methode namens "Language-Gesture Conditioning" entwickelt. Dieser Ansatz kombiniert Sprachbefehle mit gestenbasierten Eingaben, die durch das Klicken auf bestimmte Punkte in einer Szene bereitgestellt werden. Das Ziel ist es, die menschliche Kommunikation nachzuahmen, bei der oft Worte und Gesten kombiniert werden, um räumliche Anweisungen zu vermitteln.
Diese Methode verwendet ein feinabgestimmtes Stable Diffusion Video-Modell, das auf einem Datensatz von 14.000 Videos trainiert wurde. Die Klickpositionen werden während des Trainings automatisch aus Roboter-Metadaten (z.B. Greiferpositionen) extrahiert. Durch die Kombination von Sprache und Gesten können Anweisungen wie "Bewege dies dorthin" präziser interpretiert werden, was zu qualitativ hochwertigeren und robusteren Aktionsplänen führt. Eine Benutzerstudie bestätigte, dass die Full-Methode (Sprache und Geste) eine deutlich höhere Übereinstimmung mit den Benutzerabsichten zeigte als sprachbasierte oder gestenbasierte Ansätze allein.
Die generierten Videopläne müssen anschließend in konkrete Roboteraktionen umgesetzt werden. Das LeRobot-Team modifizierte hierfür die "Action Chunking Transformers" (ACT), eine Methode des Behavior Cloning, um die generierten Videos als Referenz zu nutzen. Die Architektur wurde so angepasst, dass sie Videobilder in niedrigdimensionale Merkmale umwandelt und diese über einen Transformer-Encoder verarbeitet. Dies ermöglicht es dem Roboter, flexibel auf den gesamten Videoplan zu referenzieren und die notwendigen Bewegungen auszuführen.
Vergleiche in Simulationsumgebungen zeigten, dass dieser Ansatz herkömmliche sprachbasierte Video-generative Modelle und andere State-of-the-Art-Methoden, wie ABDC und Suzie, in Bezug auf die Erfolgsrate bei der Ausführung komplexer Aufgaben übertraf. Insbesondere wurde deutlich, dass die Bereitstellung eines vollständigen Videosequenzplans – im Gegensatz zu nur einem Endziel – für die detaillierte Manipulation entscheidend ist.
Die aktuellen Forschungsergebnisse von LeRobot eröffnen neue Möglichkeiten für die Entwicklung generalisierbarer Roboterplanungssysteme. Die Nutzung von internetweiten Daten und die Feinabstimmung von Video-Diffusionsmodellen könnten einen Rahmen für die Nutzung verschiedenster Roboter-Demos und Online-Videos als Trainingsmaterial schaffen.
Zukünftige Arbeiten konzentrieren sich auf:
Diese Entwicklungen sind ein wichtiger Schritt auf dem Weg zu Robotersystemen, die nicht nur in kontrollierten Umgebungen, sondern auch in der komplexen und unvorhersehbaren realen Welt effektiv agieren können.
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen