Für Teams, Einzelnutzer, Kanzleien und Transkription – derselbe Mindverse Look, klar aufgeteilt nach Anwendungsfall.
für Teams und Unternehmen
Die Plattform für Unternehmen, die eigene KI-Workflows, Wissensdatenbanken und Assistenten produktiv einsetzen möchten.
für Einzelnutzer und Creator
Der einfachste Einstieg in das Mindverse-Ökosystem für Content, Recherche, Bilder, Audio und produktives Arbeiten.
für Juristen und Kanzleien
Die spezialisierte KI-Lösung für juristische Recherche, Vertragsarbeit und kanzleispezifische Workflows.
für Audio, Meetings und Transkription
Schnelle KI-Transkription für Audiodateien und Meetings – ideal zum sofortigen Start oder für regelmäßige Nutzung.

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die automatische Generierung von Poesie, insbesondere in einer so reichhaltigen und nuancierten Sprache wie dem Arabischen, stellt eine signifikante Herausforderung und ein vielversprechendes Forschungsfeld dar. Neuere Fortschritte im Bereich der Künstlichen Intelligenz, insbesondere bei großen Sprachmodellen (LLMs), eröffnen neue Möglichkeiten, diese komplexe Aufgabe zu bewältigen. Eine aktuelle Studie widmet sich der instruktionsgeleiteten Generierung arabischer Poesie und ihrer Dialekte, um die kreative Textproduktion durch KI zu verbessern und kulturelle Spezifika besser abzubilden.
Die arabische Poesie ist seit Langem eine zentrale Kunstform und ein Ausdruck kultureller Identität. Ihre Komplexität ergibt sich aus strengen metrischen Regeln, Reimschemata und einer tief verwurzelten sprachlichen sowie kulturellen Tradition. Bisherige Forschungsarbeiten im Kontext von LLMs konzentrierten sich oft auf analytische Aufgaben wie die Interpretation von Gedichten oder die Vorhersage von Metadaten. Die Generierung von Poesie, die diesen komplexen Anforderungen gerecht wird, blieb jedoch eine größere Hürde.
Ein zentrales Problem bei der Anwendung von LLMs auf nicht-englische Sprachen ist die Dominanz englischsprachiger Trainingsdaten. Dies führt oft zu einem Bias und einer unzureichenden Abbildung sprachlicher und kultureller Nuancen. Für das Arabische, das eine Vielzahl von Dialekten und eine einzigartige grammatikalische Struktur aufweist, ist dieser Aspekt besonders kritisch. Um dem entgegenzuwirken, wurde ein spezieller, instruktionsbasierter Datensatz entwickelt.
Der neue Datensatz, bekannt als "Arabic Poetry IFT", ist ein groß angelegter, sorgfältig kuratierter Datensatz, der speziell für die Generierung und das Verständnis arabischer Poesie konzipiert wurde. Er umfasst Modernes Standard-Arabisch (MSA) sowie vier wichtige regionale Dialekte: Golf-Arabisch, Levante-Arabisch, Nil-Arabisch und Nordafrikanisches Arabisch. Dieser Datensatz zielt darauf ab, LLMs die Fähigkeit zu vermitteln, Poesie basierend auf detaillierten Anweisungen zu erstellen, zu überarbeiten, fortzusetzen und zu analysieren.
Die Entwicklung des Datensatzes umfasste mehrere Schritte:
- Quellsammlung: Ein umfangreicher Korpus aus öffentlichen literarischen Quellen wurde aggregiert, vereinheitlicht, mit Metadaten angereichert und dedupliziert. Gedichte mit nur einem Vers wurden entfernt. - Metadatenanreicherung: Schlüsselinformationen wie Gedichttext, Titel, Dichtername, Ära, Genre, Metrum, Reim, Schlüsselwörter und Schlüsselphrasen wurden erfasst. Schlüsselwörter und -phrasen wurden teilweise automatisch generiert und manuell überprüft. - Deduplizierung und Leakage Control: Duplikate wurden entfernt und eine Überlappung mit Test-Benchmarks vermieden, um die Datenqualität zu sichern. - Instruktionsvorlagenerstellung: Manuell entworfene Instruktionsvorlagen wurden über vier Aufgabenfamilien und fünf arabische Varietäten hinweg erstellt. Dialektspezifische Vorlagen wurden von Muttersprachlern verfasst und überarbeitet.Der Datensatz beinhaltet 1.350.897 Trainingspaare und 24.815 Testpaare, was insgesamt 1.375.712 Beispiele ergibt. Die Aufgabenfamilien umfassen:
- Generierung: Erstellung eines Gedichts basierend auf Vorgaben wie Titel, Dichter, Ära, Genre, Metrum, Reim, Schlüsselwörtern oder Schlüsselphrasen. - Fortsetzung: Ergänzung eines teilweisen Gedichts unter Beibehaltung poetischer Einschränkungen. - Revision/Wiederherstellung: Korrektur eines fehlerhaften Gedichts in seine ursprüngliche Form. - Analyse: Beantwortung von Multiple-Choice-Fragen zu Gedichtmetadaten (z.B. Dichter, Titel, Metrum).Die Studie zeigt, dass die Feinabstimmung von LLMs mit diesem Datensatz Modelle hervorbringt, die Poesie effektiv und gemäß den Nutzeranforderungen generieren können. Dies wurde sowohl durch automatisierte Metriken als auch durch menschliche Evaluationen mit arabischen Muttersprachlern bestätigt.
Frühere Arbeiten zur arabischen Poesiegenerierung nutzten bereits vortrainierte Modelle wie GPT-J und BERTShared, um Metren- und Reimstrukturen zu erkennen. Auch Ansätze, die auf Byte-Ebene arbeitende, mehrsprachige Transformer-Modelle wie ByT5 setzen, wurden untersucht, um Phrasen rhythmisch korrekt einzufügen. Die aktuelle Forschung nutzt ähnliche Feinabstimmungsmethoden, um die Fähigkeiten der LLMs für die spezifischen Anforderungen der arabischen Poesie zu optimieren.
Ein weiteres wichtiges Ergebnis ist die verbesserte Dialektkontrolle. Traditionell neigen LLMs, die hauptsächlich auf Modernem Standard-Arabisch trainiert wurden, dazu, Ergebnisse zu liefern, die die Nuancen regionaler Dialekte nicht adäquat erfassen. Durch die Integration von Dialekten in den Trainingsdatensatz können die Modelle nun spezifische dialektale Merkmale in der Generierung berücksichtigen. Dies ist entscheidend für die kulturelle Relevanz und Akzeptanz der generierten Poesie.
Beispielsweise wurde in einer verwandten Studie zu saudi-arabischen Dialekten (Najdi und Hijazi) gezeigt, dass ein "Dialect-Token"-Trainingsansatz, bei dem explizite Dialekt-Tags an die Anweisung angehängt werden, die Saudi-Rate in der Generierung von 47,97% auf 84,21% erhöhte und das "MSA-Leakage" von 32,63% auf 6,21% reduzierte. Dies unterstreicht die Wirksamkeit eines expliziten Conditionings für die Dialektkontrolle.
Für Unternehmen, die im Bereich der KI-gestützten Content-Erstellung tätig sind, wie Mindverse, bieten diese Entwicklungen erhebliche Vorteile:
- Kulturell angepasste Inhalte: Die Fähigkeit, Poesie in verschiedenen arabischen Dialekten zu generieren, ermöglicht die Erstellung von Inhalten, die kulturell resonanter und ansprechender für spezifische Zielgruppen sind. Dies ist besonders wertvoll in Marketing, Unterhaltung und Bildung. - Erweiterte Kreativitätstools: KI-Modelle, die Gedichte schreiben, überarbeiten oder fortsetzen können, bieten neue kreative Werkzeuge für Autoren, Texter und Künstler. Sie können als Inspirationsquelle dienen oder bei der Überwindung von Schreibblockaden helfen. - Verbesserte Analysefunktionen: Die im Datensatz enthaltenen Analyseaufgaben ermöglichen es, KI-Modelle nicht nur für die Generierung, sondern auch für das tiefere Verständnis und die Klassifizierung von Poesie zu nutzen. Dies könnte für literarische Analysen, Archivierung oder Forschungszwecke interessant sein. - Effizienz in der Content-Produktion: Die Automatisierung der Poesiegenerierung kann den Zeit- und Arbeitsaufwand für die Erstellung komplexer und stilistisch anspruchsvoller Texte erheblich reduzieren.Die Forschung zur instruktionsgeleiteten Poesiegenerierung im Arabischen ist ein Beispiel dafür, wie spezialisierte Datensätze und Feinabstimmung dazu beitragen können, die Fähigkeiten von LLMs für spezifische, kulturell reiche Anwendungen zu erweitern. Dies eröffnet neue Perspektiven für die Schaffung vielfältiger, qualitativ hochwertiger und kulturell relevanter KI-generierter Inhalte.
Bibliographie
- Sadallah, A., Elozeiri, K., Abassy, M., Elbadry, R., Anwar, M., Freihat, A. A., Nakov, P., & Koto, F. (2026). Instruction-Guided Poetry Generation in Arabic and Its Dialects. arXiv preprint arXiv:2604.27766. - MBZUAI/instructpoet-ar. (n.d.). Datasets at Hugging Face. Retrieved from https://huggingface.co/datasets/MBZUAI/instructpoet-ar - El-Haj, M. (2026). Tarab: A Multi-Dialect Corpus of Arabic Lyrics and Poetry. arXiv preprint arXiv:2603.16601. - Barmandah, H. (2025). Saudi-Dialect-ALLaM: LoRA Fine-Tuning for Dialectal Arabic Generation. arXiv preprint arXiv:2508.13525. - ElOraby, M., Abdelgaber, M., Elkaref, N., & Abu-Elkheir, M. (2022). Generating Classical Arabic Poetry using Pre-trained Models. Proceedings of the Seventh Arabic Natural Language Processing Workshop (WANLP), 53-62. - Elzohbi, M., & Zhao, R. (2025). Tahḏīb: A Rhythm-Aware Phrase Insertion for Classical Arabic Poetry Composition. Proceedings of The Third Arabic Natural Language Processing Conference, 194-202. - Alyafea, Z. (n.d.). CIDAR: Culturally Relevant Instruction Dataset For Arabic. Hugging Face Papers. Retrieved from https://hf.co/papers/2402.03177 - Sochi, T. (2025). Composing Classic Arabic Poems with Help from Artificial Intelligence. HAL Id: hal-04977961. https://hal.science/hal-04977961v1/file/ArabicPoem.pdf - OKAZ: A Deep-learning-Based System for Automatic Arabic Poem Generation. (2025). IEEE Conference Publication. Retrieved from https://ieeexplore.ieee.org/document/10273934/Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen