مشاركة صورة GPT-4o هي مجموعة بيانات لتوليد الصور عالية الجودة وواسعة النطاق حيث يتم توليد جميع الصور باستخدام إمكانيات توليد الصور الخاصة بـ GPT-4o.

تهدف مجموعة البيانات هذه إلى الجمع بين مزايا نماذج الوسائط المتعددة مفتوحة المصدر ونقاط القوة التي يتمتع بها GPT-4o في إنشاء المحتوى المرئي.

إنه يتضمن 45000 عينة نص إلى صورة و46000 عينة صورة إلى نص، مما يجعله موردًا عمليًا لتحسين النماذج متعددة الوسائط في مهام إنشاء الصور وتحريرها.

Janus-4o هو برنامج متعدد الوسائط قادر على توليد النصوص إلى الصور، وكذلك توليد النصوص والصورة. يعتمد على Janus-Pro، وقد تم تحسينه باستخدام مجموعة بيانات ShareGPT-4o-Image. مقارنةً بـ Janus-Pro، يُقدم Janus-4o إمكانيات توليد النصوص والصورة، ويُحقق تحسينات كبيرة في توليد النصوص إلى الصور.

نظرة عامة على مجموعة البيانات

تحتوي مجموعة بيانات ShareGPT-4o-Image على 91000 عينة من إنشاء صور GPT-4o، مصنفة على النحو التالي:

  • تحويل النص إلى صورة: 45,717
  • نص وصورة إلى صورة: 46,539

روابط ذات صلة

شفرة: انقر هنا على github

نموذج: احصل على نموذج ShareGPT-4o-Image

ورق: انقر هنا

مقدمة الورقة

أتاحت التطورات الحديثة في نماذج التوليد متعدد الوسائط إمكانية توليد صور واقعية ومتوافقة مع التعليمات. ومع ذلك، لا تزال الأنظمة الرائدة، مثل GPT-4o-Image، مملوكةً وغير متاحة.

ولجعل هذه القدرات متاحة للعامة، قدمت الورقة البحثية ShareGPT-4o-Image، وهي أول مجموعة بيانات تحتوي على 45000 مثال لتحويل النص إلى صورة و46000 مثال لتحويل النص بالإضافة إلى صورة إلى صورة، وكلها تم تصنيعها باستخدام قدرات GPT-4o في توليد الصور لتحسين قدراتها المتقدمة في توليد الصور. وباستخدام مجموعة البيانات هذه، طورت الورقة البحثية Janus-4o، وهو نموذج لغوي كبير متعدد الوسائط قادر على توليد النص إلى صورة والنص بالإضافة إلى صورة إلى صورة.

لا يعمل Janus-4o على تحسين قدرات توليد النص إلى صورة بشكل كبير على سابقه Janus-Pro فحسب، بل يقدم أيضًا قدرات توليد النص بالإضافة إلى الصورة إلى صورة. والجدير بالذكر أنه يحقق أداءً مثيرًا للإعجاب في توليد الصور من النصوص والصور من الصفر باستخدام 91 ألف عينة اصطناعية فقط وتدريبها لمدة 6 ساعات على جهاز وحدة معالجة الرسوميات 8×A800.

نأمل أن يؤدي إصدار ShareGPT-4o-Image و Janus-4o إلى تعزيز البحث المفتوح في مجال توليد الصور الواقعية المتوافقة مع التعليمات.

نظرة عامة على الطريقة

يعمل ShareGPT-4o-Image على تحسين أداء إنشاء الصور. من خلال ضبط Janus-Pro بدقة باستخدام ShareGPT-4o-Image، أنتجنا Janus-4o، الذي يُظهر أداءً مُحسّنًا بشكل ملحوظ في توليد الصور. كما يدعم Janus-4o توليد النص إلى صورة والصورة إلى صورة، متفوقًا على معايير أخرى بـ 91,000 عينة تدريب فقط.

نظرة عامة على نموذج Janus-4o. يعتمد النموذج على Janus-Pro، وقد بُنيَ بضبطه بدقة على ShareGPT-4o-Image. ويتضمن تحسينات لدعم توليد النص إلى صورة والصورة إلى صورة. ويتم تدريب مهمتي النص إلى صورة والنص إلى صورة بشكل مشترك.

النتائج التجريبية

الاستنتاجات

ShareGPT-4o-Image هي أول مجموعة بيانات واسعة النطاق قادرة على الاستفادة من قدرات GPT-4o المتقدمة في توليد الصور من نص إلى صورة ومن نص إلى صورة. بناءً على هذه المجموعة، طورت الورقة البحثية Janus-4o، وهو نموذج تعلّم آلي (MLLM) قادر على توليد صور عالية الجودة من نص خالص أو من تركيبات نصية.

يحقق Janus-4o تحسينات كبيرة في توليد النص إلى صورة ويحقق نتائج تنافسية للغاية في مهام تحويل النص إلى صورة، مما يدل على الجودة العالية والعملية التي يتمتع بها ShareGPT-4o-Image.

بفضل كفاءة إنشاء الصور ذاتية الانحدار استنادًا إلى MLLM، يمكن تدريب Janus-4o في 6 ساعات فقط على جهاز GPU 8×A800 وتحقيق تحسينات كبيرة في الأداء مع متطلبات حسابية منخفضة للغاية.

منشورات مشابهة

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *