النجم الجديد في توليد الصور متعددة الوسائط: Janus-4o؟ ShareGPT-4o-Image يضع معيارًا جديدًا لمجموعات البيانات، متماشيًا مع GPT-4o في توليد الصور.

مشاركة صورة GPT-4o هي مجموعة بيانات لتوليد الصور عالية الجودة وواسعة النطاق حيث يتم توليد جميع الصور باستخدام إمكانيات توليد الصور الخاصة بـ GPT-4o.

تهدف مجموعة البيانات هذه إلى الجمع بين مزايا نماذج الوسائط المتعددة مفتوحة المصدر ونقاط القوة التي يتمتع بها GPT-4o في إنشاء المحتوى المرئي.

إنه يتضمن 45000 عينة نص إلى صورة و46000 عينة صورة إلى نص، مما يجعله موردًا عمليًا لتحسين النماذج متعددة الوسائط في مهام إنشاء الصور وتحريرها.

Janus-4o هو برنامج متعدد الوسائط قادر على توليد النصوص إلى الصور، وكذلك توليد النصوص والصورة. يعتمد على Janus-Pro، وقد تم تحسينه باستخدام مجموعة بيانات ShareGPT-4o-Image. مقارنةً بـ Janus-Pro، يُقدم Janus-4o إمكانيات توليد النصوص والصورة، ويُحقق تحسينات كبيرة في توليد النصوص إلى الصور.

جدول المحتويات

نظرة عامة على مجموعة البيانات

تحتوي مجموعة بيانات ShareGPT-4o-Image على 91000 عينة من إنشاء صور GPT-4o، مصنفة على النحو التالي:

تحويل النص إلى صورة: 45,717
نص وصورة إلى صورة: 46,539

روابط ذات صلة

شفرة: انقر هنا على github

نموذج: احصل على نموذج ShareGPT-4o-Image

ورق: انقر هنا

مقدمة الورقة

أتاحت التطورات الحديثة في نماذج التوليد متعدد الوسائط إمكانية توليد صور واقعية ومتوافقة مع التعليمات. ومع ذلك، لا تزال الأنظمة الرائدة، مثل GPT-4o-Image، مملوكةً وغير متاحة.

ولجعل هذه القدرات متاحة للعامة، قدمت الورقة البحثية ShareGPT-4o-Image، وهي أول مجموعة بيانات تحتوي على 45000 مثال لتحويل النص إلى صورة و46000 مثال لتحويل النص بالإضافة إلى صورة إلى صورة، وكلها تم تصنيعها باستخدام قدرات GPT-4o في توليد الصور لتحسين قدراتها المتقدمة في توليد الصور. وباستخدام مجموعة البيانات هذه، طورت الورقة البحثية Janus-4o، وهو نموذج لغوي كبير متعدد الوسائط قادر على توليد النص إلى صورة والنص بالإضافة إلى صورة إلى صورة.

لا يعمل Janus-4o على تحسين قدرات توليد النص إلى صورة بشكل كبير على سابقه Janus-Pro فحسب، بل يقدم أيضًا قدرات توليد النص بالإضافة إلى الصورة إلى صورة. والجدير بالذكر أنه يحقق أداءً مثيرًا للإعجاب في توليد الصور من النصوص والصور من الصفر باستخدام 91 ألف عينة اصطناعية فقط وتدريبها لمدة 6 ساعات على جهاز وحدة معالجة الرسوميات 8×A800.

نأمل أن يؤدي إصدار ShareGPT-4o-Image و Janus-4o إلى تعزيز البحث المفتوح في مجال توليد الصور الواقعية المتوافقة مع التعليمات.

نظرة عامة على الطريقة

يعمل ShareGPT-4o-Image على تحسين أداء إنشاء الصور. من خلال ضبط Janus-Pro بدقة باستخدام ShareGPT-4o-Image، أنتجنا Janus-4o، الذي يُظهر أداءً مُحسّنًا بشكل ملحوظ في توليد الصور. كما يدعم Janus-4o توليد النص إلى صورة والصورة إلى صورة، متفوقًا على معايير أخرى بـ 91,000 عينة تدريب فقط.

نظرة عامة على نموذج Janus-4o. يعتمد النموذج على Janus-Pro، وقد بُنيَ بضبطه بدقة على ShareGPT-4o-Image. ويتضمن تحسينات لدعم توليد النص إلى صورة والصورة إلى صورة. ويتم تدريب مهمتي النص إلى صورة والنص إلى صورة بشكل مشترك.

النتائج التجريبية

الاستنتاجات

ShareGPT-4o-Image هي أول مجموعة بيانات واسعة النطاق قادرة على الاستفادة من قدرات GPT-4o المتقدمة في توليد الصور من نص إلى صورة ومن نص إلى صورة. بناءً على هذه المجموعة، طورت الورقة البحثية Janus-4o، وهو نموذج تعلّم آلي (MLLM) قادر على توليد صور عالية الجودة من نص خالص أو من تركيبات نصية.

يحقق Janus-4o تحسينات كبيرة في توليد النص إلى صورة ويحقق نتائج تنافسية للغاية في مهام تحويل النص إلى صورة، مما يدل على الجودة العالية والعملية التي يتمتع بها ShareGPT-4o-Image.

بفضل كفاءة إنشاء الصور ذاتية الانحدار استنادًا إلى MLLM، يمكن تدريب Janus-4o في 6 ساعات فقط على جهاز GPU 8×A800 وتحقيق تحسينات كبيرة في الأداء مع متطلبات حسابية منخفضة للغاية.

غير مصنف

تفاصيل ورقة DeepSeek V3 الورقية: كيفية تجاوز احتكار CUDA!

بواسطةيانوس-أي يناير 29, 2025يناير 29, 2025

تفاصيل ورقة DeepSeek V3 الورقية: كيفية تجاوز احتكار CUDA! يحقق نموذجا DeepSeek اللذان تم إصدارهما مؤخراً، DeepSeek-V3 و DeepSeek-R1، أداءً يضاهي أداء النماذج المماثلة من OpenAI بتكلفة أقل بكثير. ووفقاً لتقارير وسائل الإعلام الأجنبية، فقد قاما في غضون شهرين فقط بتدريب نموذج لغة MoE مع 671 مليار معلمة على مجموعة من 2,048...

غير مصنف

أصدرت شركة Deepseek مجموعة أخرى: فقد أصدرت للتو نموذجًا متعدد الوسائط Janus Pro يتفوق على DALL-E3

بواسطةيانوس-أي يناير 28, 2025يناير 28, 2025

وقد وصل عصر الذكاء الاصطناعي بهدوء. ربما لم يتوقع أحد أن الموضوع الأكثر سخونة في هذه السنة الصينية الجديدة لن يكون معركة المظروف الأحمر التقليدية على الإنترنت، التي شاركت في حفل عيد الربيع، بل شركات الذكاء الاصطناعي. ومع اقتراب عيد الربيع، لم تهدأ الشركات النموذجية الكبرى على الإطلاق، حيث قامت بتحديث موجة

غير مصنف

دليل شامل لـ DeepSeek، وهي تقنية استخدام لا يعرفها 90% من الناس (موصى به لوضع إشارة مرجعية)

بواسطةيانوس-أي يناير 29, 2025يناير 29, 2025

دليل شامل إلى DeepSeek، وهي تقنية استخدام لا يعرفها 90% من الناس (موصى به لوضع إشارة مرجعية) منذ أن تم إصدار DeepSeek-V3 قبل شهر، كنت أقوم بتحديث المقالات ومقاطع الفيديو المتعلقة بـ DeepSeek لأنني أعتقد أنها شركة رائعة للغاية. حتى يوم أمس، شهد التاريخ أخيرًا، حيث تصدر متجر تطبيقات أبل في الولايات المتحدة...

غير مصنف

تطبيق DeepSeek يحل محل تطبيق ChatGPT كأفضل تطبيق في متجر التطبيقات العالمي على متجر التطبيقات App Store

بواسطةيانوس-أي يناير 29, 2025يناير 29, 2025

لقد ظهر DeepSeek! هل يستطيع ChatGPT إيقاف سيد الذكاء الاصطناعي الجديد؟ أذهل نموذج DeepSeek الجديد مفتوح المصدر R1 الذي تم إصداره منذ فترة ليست بالبعيدة العالم. كما اجتذب أداؤه المتميز وبيانات الاختبار الخاصة به الكثير من النقاش من مستخدمي الإنترنت. بالنسبة للمستخدمين، فهذا يعني أداءً أفضل وسعرًا أقل. الشيء الأكثر أهمية هو...

غير مصنف

لقد قمت بتقطير معرفة القدرة المنطقية لـ DeepSeek-R1 في Qwen2، وكانت النتائج مذهلة حقًا!!!

بواسطةيانوس-أي يناير 29, 2025يناير 29, 2025

Ⅰ. ما هو التقطير المعرفي؟ تقطير المعرفة هو تقنية ضغط النماذج المستخدمة لنقل المعرفة من نموذج كبير ومعقد (نموذج المعلم) إلى نموذج صغير (نموذج الطالب). المبدأ الأساسي هو أن نموذج المعلم يقوم بتعليم نموذج الطالب من خلال التنبؤ بالنتائج (مثل التوزيعات الاحتمالية أو عمليات الاستدلال)، ويقوم نموذج الطالب بتعليم نموذج المعلم...

غير مصنف

سلسلة جانوس: نماذج موحدة متعددة الوسائط للفهم والتوليد الموحدين

بواسطةwd.gstar@gmail.com يناير 28, 2025يناير 28, 2025

أطلق العنان لقدرات الجيل التالي من الذكاء الاصطناعي مع الابتكار مفتوح المصدر تمثل سلسلة Janus-Series من DeepSeek قفزة رائدة في مجال الذكاء الاصطناعي متعدد الوسائط، حيث تدمج بسلاسة فهم الصور وتوليد النصوص إلى صور ونمذجة اللغة المتقدمة. صُممت هذه النماذج للباحثين والمطورين والمؤسسات، وهي مصممة للباحثين والمطورين والمؤسسات، وهي تعيد تعريف المرونة والأداء في تطبيقات الذكاء الاصطناعي. 🚀 آخر التحديثات ابقَ في الطليعة مع أحدث الإصدارات: 🔥 لماذا تختار سلسلة Janus-Series؟ 1- 1. Janus-Pro: توسيع نطاق متعدد الوسائط...

النجم الجديد في توليد الصور متعددة الوسائط: Janus-4o؟ ShareGPT-4o-Image يضع معيارًا جديدًا لمجموعات البيانات، متماشيًا مع GPT-4o في توليد الصور.

نظرة عامة على مجموعة البيانات

روابط ذات صلة

مقدمة الورقة

نظرة عامة على الطريقة

النتائج التجريبية

الاستنتاجات

تفاصيل ورقة DeepSeek V3 الورقية: كيفية تجاوز احتكار CUDA!

أصدرت شركة Deepseek مجموعة أخرى: فقد أصدرت للتو نموذجًا متعدد الوسائط Janus Pro يتفوق على DALL-E3

دليل شامل لـ DeepSeek، وهي تقنية استخدام لا يعرفها 90% من الناس (موصى به لوضع إشارة مرجعية)

تطبيق DeepSeek يحل محل تطبيق ChatGPT كأفضل تطبيق في متجر التطبيقات العالمي على متجر التطبيقات App Store

لقد قمت بتقطير معرفة القدرة المنطقية لـ DeepSeek-R1 في Qwen2، وكانت النتائج مذهلة حقًا!!!

سلسلة جانوس: نماذج موحدة متعددة الوسائط للفهم والتوليد الموحدين

اترك تعليقاً إلغاء الرد

الموارد

أصدقاء

نظرة عامة على مجموعة البيانات

روابط ذات صلة

مقدمة الورقة

نظرة عامة على الطريقة

النتائج التجريبية

الاستنتاجات

منشورات مشابهة

اترك تعليقاً إلغاء الرد

الموارد

أصدقاء