الرسالة الرئيسية: جانوس هو نموذج فهم وتوليد متعدد الوسائط بسيط وموحد وقابل للتوسعة يفصل بين الفهم متعدد الوسائط والترميز البصري المولد، مما يخفف من التعارض المحتمل بين المهمتين. يمكن توسيعه ليشمل طرائق إدخال إضافية في المستقبل. يبني Janus-Pro على هذا الأساس من خلال تحسين استراتيجية التدريب (بما في ذلك زيادة عدد خطوات التدريب، وتعديل نسب البيانات، وما إلى ذلك)، وإضافة المزيد من البيانات (بما في ذلك استخدام البيانات الاصطناعية، وما إلى ذلك)، وتوسيع حجم النموذج (إلى 7 مليارات معلمة)، مما يؤدي إلى تقدم في قدرات النموذج على الفهم متعدد الوسائط والالتزام بتعليمات تحويل النص إلى صورة.
Janus-Pro هو نسخة متطورة من العمل السابق Janus، على وجه التحديد، بما في ذلك (1) استراتيجية تدريب مُحسّنة، (2) بيانات تدريب موسعة، (3) أحجام نماذج أكبر. مع هذه التحسينات، يُحقق Janus-Pro تقدمًا كبيرًا في قدرات الفهم متعدد الوسائط والالتزام بتعليمات تحويل النص إلى صورة، مع تعزيز استقرار توليد النص إلى صورة. قبل تفريغ Janus-Pro، دعونا نستعرض جانوس.
مراجعة جانوس
إن Janus السابق هو إطار عمل تلقائي للفهم والتوليد الموحد متعدد الوسائط، والذي يُستخدم لفصل الترميز البصري للفهم والتوليد الموحد متعدد الوسائط. بالنسبة للفهم متعدد الوسائط، عادةً ما يتبع التصميم عادةً LLaVA، باستخدام المبرمجات البصرية كجسر لتمكين النماذج اللغوية الكبيرة من فهم الصور. بالنسبة للتوليد، عادةً ما يعتمد على نماذج الانتشار، وبعضها يعتمد على أساليب الانحدار التلقائي. تحاول بعض المقاربات استخدام محول واحد لمحاولة توحيد مهمتي الفهم متعدد الوسائط والتوليد، والتي عادةً ما تستخدم مبرمجًا بصريًا واحدًا لمعالجة مدخلات كلتا المهمتين.
ومع ذلك، هناك اختلافات في التمثيلات المطلوبة لمهام الفهم متعدد الوسائط ومهام التوليد. في مهمة الفهم متعدد الوسائط، يهدف المشفر البصري إلى استخراج معلومات دلالية عالية المستوى (على سبيل المثال، فئات الكائنات أو السمات البصرية)، ولا يتضمن الإخراج استخراج المعلومات من الصورة فحسب، بل يتضمن أيضًا التفكير الدلالي المعقد، حيث يركز المشفر بشكل أساسي على التمثيلات الدلالية عالية الأبعاد. وتهتم مهمة التوليد بشكل أساسي بتوليد التفاصيل المحلية والحفاظ على الاتساق العام في الصورة، وبالتالي تتطلب تمثيلات مشفرة منخفضة الأبعاد للتراكيب المكانية وتفاصيل النسيج. يمكن أن يؤدي توحيد تمثيلات كلتا المهمتين في نفس المساحة إلى حدوث تعارضات.
يحتوي Janus على مسارين مستقلين للترميز المرئي للفهم متعدد الوسائط والتوليد ويحقق فائدتين: 1) يخفف من التعارضات الناجمة عن متطلبات التفصيل المختلفة للفهم والتوليد متعدد الوسائط، و2) مرن وقابل للتطوير، حيث يمكن الفصل بين مهمتي الفهم والتوليد بحيث يمكن ترميز كل من مهمتي الفهم والتوليد باستخدام أحدث تقنيات الترميز الخاصة بمجالاتهما، ويمكن في المستقبل تغذيتهما بسحب نقطية أو إشارات تخطيط كهربية الدماغ أو البيانات الصوتية، ومعالجتهما باستخدام محول موحد في المستقبل، يمكن إدخال السحب النقطية أو إشارات تخطيط كهربية الدماغ أو البيانات الصوتية ومعالجتها باستخدام محول موحد.
لفهم النص، يتم تحويل النص إلى معرّفات منفصلة باستخدام أداة الترميز المدمجة في LLM;
من أجل الفهم متعدد الوسائط، يتم استخراج السمات الدلالية عالية الأبعاد في الصور باستخدام مشفرات SigLIP (ملاحظة المؤلف: يستخدم Cosmos أيضًا مشفرات SigLIP في قسم Guardrails)، ويتم تعيين السمات المستخرجة في مساحة سمات النص في LLM باستخدام Adaptor (طبقة ثنائية MLP);
تم تعديل الجانب الطويل إلى 384 بكسل وتم ملء الجانب القصير إلى 384 بكسل باستخدام RGB(127، 127، 127);
لتوليد الصور المرئية، تم تحويل الصورة إلى معرّفات منفصلة باستخدام VQ Tokenizer، وتم تعيين كل معرّف في مساحة الميزة النصية لـ LLM باستخدام Adaptor (طبقة ثنائية MLP);
تم تغيير حجم الحواف القصيرة إلى 384 بكسل وتم اقتصاص الحواف الطويلة إلى 384 بكسل;
تم إجراء التدريب الشامل باستخدام 16 عقدة، تحتوي كل منها على 8 وحدات معالجة رسومات Nvidia A100;
بالنسبة لكل من مهام التوليد المرئي والفهم متعدد الوسائط، يتم ربط تسلسلات ميزات الصور وتسلسلات ميزات النص معًا كمدخلات إلى LLM (يتم استخدام DeepSeek-LLM 1.3B في النص);
يتم استخدام رأس التنبؤ المدمج في نموذج LLM للتنبؤات النصية في كل من مهمتي فهم النص البحت والفهم متعدد الوسائط، بينما يتم استخدام رأس تنبؤ مهيأ عشوائيًا لتنبؤات الصور في مهمة التوليد البصري. يلتزم النموذج بأكمله بإطار عمل انحداري ذاتي الانحدار دون الحاجة إلى أقنعة انتباه مصممة خصيصًا.
تدريب جانوس تنقسم إلى 3 مراحل:
المرحلة 1
محول القطار ورأس الصورة لخلق روابط بين العناصر اللغوية والبصرية في فضاء التضمين، مما يمكّن LLM من فهم الكيانات في الصورة ولديه قدرات توليد بصرية أولية;
لفهم متعدد الوسائط، استخدم 1.25 مليون بيانات تعليق مقترن بين الصورة والنص من SHareGPT4V بصيغة ;
لتوليد الصور المرئية، باستخدام 1.2 مليون عينة من ImageNet1k بالصيغة ;
المرحلة 2
التدريب المسبق الموحّدباستخدام مجموعة متعددة الوسائط للتدريب المسبق الموحد لتعلم الفهم والتوليد متعدد الوسائط. يتم استخدام بيانات النص العادي وبيانات الفهم متعدد الوسائط وبيانات التوليد المرئي في هذه المرحلة. التدريب البسيط على التوليد المرئي باستخدام ImageNet-1k، يليه استخدام بيانات نصية عامة لتحويلها إلى صور لتعزيز التوليد المرئي في المجال المفتوح للنموذج;
بيانات نصية عادية: مجموعة DeepSeek-LLM المدربة مسبقًا;
بيانات الصور والنصوص المتداخلة: مجموعات بيانات WikiHow وWIT;
بيانات توضيحية للصور: صور من مصادر متعددة وأعيدت تسمية بعض الصور باستخدام نماذج متعددة الوسائط مفتوحة المصدر، مع تنسيق البيانات على شكل أزواج أسئلة وأجوبة، على سبيل المثال وصف الصورة بالتفصيل.
البيانات الجدولية والرسوم البيانية: البيانات الجدولية والرسوم البيانية المقابلة من DeepSeek-VL بصيغة ;
البيانات التي تم إنشاؤها بصرياً: أزواج الصور-التعليقات من مجموعات بيانات متعددة و2 مليون بيانات داخلية;
أثناء التدريب، يتم استخدام الجملة الأولى فقط من التسمية التوضيحية بشكل عشوائي مع احتمال 25%;
تظهر عينات ImageNet فقط في خطوات التدريب الأولية البالغ عددها 120 ألف خطوة، مع ظهور صور من مجموعات بيانات أخرى في الخطوات اللاحقة البالغ عددها 60 ألف خطوة;
المرحلة 3
الضبط الدقيق الخاضع للإشراف، حيث يتم ضبط النماذج المدربة مسبقًا باستخدام بيانات الضبط الدقيق للتعليمات لتعزيز قدرتها على اتباع التعليمات والحوار. صقل جميع المعلمات باستثناء أداة تشفير التوليد. إخفاء النظام وإشارات المستخدم أثناء الإشراف على الإجابات. لضمان كفاءة جانوس في كل من الفهم والتوليد متعدد الوسائط، لا يتم ضبط النماذج بشكل منفصل لمهام محددة. بدلًا من ذلك، نستخدم مزيجًا من بيانات الحوار النصي فقط، وبيانات الفهم متعدد الوسائط، وبيانات التوليد المرئي لضمان تعدد الاستخدامات في مجموعة متنوعة من السيناريوهات;
فهم النص: يستخدم بيانات من مصادر محددة;
الفهم متعدد الوسائط: استخدام البيانات من مصادر متعددة لضبط التعليمات;
التوليد المرئي: باستخدام مجموعة فرعية من أزواج الصور-النصوص من بعض مجموعات بيانات المرحلة الثانية بالإضافة إلى 4 ملايين بيانات داخلية;
تنسيق البيانات هو: المستخدم: \nمساعد: ;
أهداف التدريب
Janus هو نموذج انحداري ذاتي الانحدار تم تدريبه باستخدام دالة خسارة متقاطعة الانتروبيا (cross-entropy loss)، بالنسبة لمهام فهم النص العادي ومهام الفهم متعدد الوسائط، يتم حساب الخسارة على تسلسل النص. بالنسبة لمهام التوليد البصري، تُحسب الخسارة على تسلسل الصورة فقط. للحفاظ على بساطة التصميم، لا يتم تعيين أوزان خسارة مختلفة للمهام المختلفة.
المنطق
باستخدام طريقة التنبؤ بالعنصر المعجمي التالي، لفهم النص العادي والفهم متعدد الوسائط، يتم أخذ عينات من العناصر المعجمية بالتتابع من توزيع التنبؤ. بالنسبة لتوليد الصور، يتم استخدام تمهيد غير مصنف.
التمديدات المحتملة
بالنسبة للفهم متعدد الوسائط، 1) يمكن اختيار مبرمج مرئي أقوى، و2) يمكن استخدام تقنيات ديناميكية عالية الدقة;
بالنسبة إلى توليد الرؤية، 1) يمكن اختيار مشفرات أكثر دقة، 2) استخدام دوال خسارة مصممة خصيصًا لتوليد الرؤية، 3) الجمع بين الانتباه السببي والطرق المتوازية;
المزيد من الطرائق، مع القدرة على دمج السحب النقطية ثلاثية الأبعاد، واللمس، وتخطيط كهربية الدماغ، وغيرها من المدخلات لطرائق الفقدان;
Janus-Pro ترقية Janus-Pro
وبفضل بيانات التدريب المحدودة وسعة النموذج الصغيرة نسبيًا (1B)، فإن Janus يعاني من قصور في بعض الجوانب، مثل ضعف تمثيل توليد الصور في ظل إشارات قصيرة وجودة غير متسقة لتوليد النص إلى صورة، وبنية Janus-Pro هي نفسها بنية Janus، والتي يمكن رؤيتها في الشكل أدناه:
التحسينات الرئيسية
استراتيجية التدريب
المرحلة 1: زيادة عدد خطوات التدريب والتدريب الكامل على ImageNet;
المرحلة 2: عدم استخدام ImageNet بعد الآن، واستخدام بيانات تحويل النص إلى صورة مباشرةً للتدريب;
المرحلة 3: تعديل نسب مجموعة البيانات في عملية الضبط الدقيق من خلال تغيير نسبة البيانات متعددة الوسائط وبيانات النص العادي وبيانات النص العادي وبيانات النص إلى الصورة من 7:3:10 إلى 5:1:4;
مقياس البيانات
فهم متعدد الوسائط
المرحلة 2: إضافة 90 مليون نموذج، بما في ذلك YFCC للتعليق على الصور ومصفوفة المستندات لفهم مستندات الجداول والرسوم البيانية;
المرحلة 3: إضافة مجموعات بيانات إضافية من DeepSeek-VL2 مثل فهم MEME;
التوليد المرئي: قد تحتوي بيانات العالم الحقيقي على جودة رديئة، مما يؤدي إلى توليد نص إلى صورة غير مستقر ومخرجات جمالية رديئة، يستخدم Janus-Pro 72 مليون عينة من البيانات الجمالية الاصطناعية، مع مرحلة تدريب مسبق موحدة (المرحلة 2) بنسبة 1:1 من البيانات الحقيقية إلى البيانات الاصطناعية;
مقياس النموذج
قياس معلمات النموذج إلى مقياس 7 مليار معلمة;
التفاصيل التجريبية
بالمقارنة مع Janus، فإن تفاصيل تجارب Janus-Pro هي نفسها بشكل أساسي. في المقابل، استخدم النموذج ذو المعامل الأكبر عددًا أكبر من العقد العنقودية (من 16 إلى 32).
Janus-Pro المعلمات الزائدة للتدريب Janus-Pro
غير كافٍ
بالنسبة للفهم متعدد الوسائط، تقتصر دقة الإدخال على 384×384، مما يؤثر على الأداء في المهام البصرية الدقيقة. بالنسبة لتوليد النص إلى صورة، تؤدي الدقة المنخفضة إلى نقص التفاصيل في النتائج التي تم إنشاؤها.