انفجار! ديبسيكهدية السنة الصينية الجديدة - شرح مفصل للنموذج متعدد الوسائط Janus-Pro
أحدث موديل Janus-Pro من DeepSeek يربط مباشرة بين "العقلين الأيمن والأيسر" للذكاء الاصطناعي متعدد الوسائط!
هذا القاتل ذو الوجهين، الذي يمكنه القيام بفهم الصور والنصوص وتوليد الصور في آنٍ واحد، يعيد كتابة قواعد الصناعة بإطاره المطور ذاتيًا.
هذا ليس تراكبًا بسيطًا للوظائف، ولكن من خلال فصل مسار الترميز البصري، حقق النموذج "عقل واحد واستخدامين" حقيقيًا.
فالنماذج التقليدية متعددة الوسائط تشبه استخدام نفس اليد للكتابة والرسم، في حين أن Janus-Pro تزود الذكاء الاصطناعي مباشرة بنظامين عصبيين!
ثورة الأطر: حل مشكلة تعدد الوسائط التي تعود إلى قرن من الزمان
الابتكار الأكثر قسوة في Janus-Pro هو تقسيم التشفير المرئي إلى قناتين مستقلتين.
إنه أشبه بتزويد الذكاء الاصطناعي بعين الفهم ويد الإبداع، بحيث لا يعود النموذج يعاني عند معالجة "وصف الصورة" و"تحويل النص إلى صورة".
يكمن أعظم إنجازاتها في تصميمها المعماري الموحد الجديد. تتكون هذه البنية من ثلاثة مكونات أساسية:
المبرمج التلقائي: كنموذج لغوي أساسي
SigLIP-L@384: مسؤول عن ترميز فهم الصورة
VQ-VAE القائم على LlamaGen: لتوليد الصور
من خلال فصل التشفير المرئي إلى مسارات مستقلة مع الحفاظ على بنية محول موحد، يحل Janus-Pro ببراعة تعارض الأدوار في النماذج السابقة في المشفر المرئي.
يشير @reach_vb إلى الإنجاز الرئيسي في البنية:
النموذج مبني على نموذج DeepSeek-LLM-1.5b/7b، ويستخدم SigLIP-L لمعالجة مدخلات الصور 384×384 وفصل عملية الترميز من خلال مسارات خاصة بالمهام
يسمح هذا التصميم للنموذج بالتبديل بسلاسة بين المهام متعددة الوسائط مع الحفاظ على بنية محول واحد.
استراتيجية التدريب: المسار التطوري للنجاح المكون من ثلاث خطوات
اعتمد فريق DeepSeek عملية تدريب مصممة بعناية على ثلاث مراحل:
المرحلة 1: تدريب معلمات جديدة على مجموعة بيانات ImageNet لإنشاء روابط مفاهيمية بين العناصر البصرية واللغوية
المرحلة 2: تقديم مجموعة بيانات هجينة متعددة الوسائط لضبط البارامترات بالكامل
المرحلة 3: تحسين قدرات متابعة الأوامر والحوار من خلال الضبط الدقيق الخاضع للإشراف
كما تم إجراء تعديلات مبتكرة على نسبة البيانات:
مهمة فهم الصورة: 50% (زيادة كبيرة)
مهمة توليد الصور: 40
مهمة النص: 10%
يشير @iScienceLuvr إلى سر التدريب:
تم تخفيض نسبة المهام النصية بشكل متعمد خلال المرحلة الثالثة من الضبط الدقيق
هذا يجبر النموذج على تركيز قوته الحاسوبية على التحويل عبر الوسائط
خبير الأداء
هذا الوحش "الشامل" يحقق نجاحاً باهراً في المقياسين الأساسيين!
تُظهر الاختبارات الرسمية أن Janus-Pro لا يتفوق على النموذج الموحد السابق فحسب، بل يمكنه حتى مواجهة النماذج المتخصصة وجهاً لوجه - حيث سجل أعلى من LLaVA في مهمة الفهم وتفوق على DALL-E 3 في جودة التوليد!
مع درجة GenEval 0.8، فإنها تضع SD3-Medium في موقف محرج
ودرجة 84.19 في اختبار DPG-Bench، فإن جودة التصميم المرئي قريبة من جودة التصميمات المرئية للمصممين المحترفين
ويستند ذلك إلى استراتيجية تدريب مكونة من 72 مليون صورة اصطناعية وثلاث مراحل من التدريب (تدريب المحول ← تدريب مسبق موحد ← تدريب مسبق موحد ← ضبط دقيق تحت الإشراف)، مما حول النموذج حرفيًا إلى "سيد متعدد الأنماط".
نشر @dr_cintas مقارنة بين القياسات الفعلية:
عند تشغيل إصدار كمي 4 بت على جهاز iPhone، تبلغ سرعة الاستدلال حوالي 60 رمزاً/ثانية
يمكن للصورة المصغرة التي تم إنشاؤها 384×384 التي تم إنشاؤها قراءة نص لوحة السيارة
في الاختبار المعياري للفهم متعدد الوسائط، أظهر Janus-Pro-7B قوة مذهلة:
بوب: 87.41T9T
MME-PT: 1567.1
MMBench: 79.2
SEED: 72.1
MMMU: 41.0
ميم-فيت: 50.0
فيما يتعلق بتوليد الصور، حقق الطراز درجة GenEval 0.8 ودرجة DPG-Bench 84.19، متفوقاً بذلك على العديد من الطرز السائدة بما في ذلك DALL-E 3 و SD3-Medium.
معهد ماساتشوستس للتكنولوجيا مفتوح المصدر: لا تتردد في اللعب!
لقد قلبت DeepSeek الطاولة هذه المرة - النسخة المزدوجة 7B/1B مفتوحة المصدر بالكامل، وتسمح رخصة MIT بالتعديلات التجارية!
يمكن تنزيل Hugging Face على الفور، وحتى الإصدار 1B خفيف الوزن يمكن تشغيله محلياً على جهاز iPhone.
قدم المطور @angrypenguinPNG عرضًا حيًا:
أدخل "المشهد الليلي للمدينة المستقبلية" وسيظهر لك في ثوانٍ منظر شارع سايبربانك
قم بالتكبير لفحص تفاصيل المشهد، ويمكن للنموذج أن يصف تدرج أضواء النيون بدقة
القيمة العملية: خفض عائق الدخول إلى السوق
لتلبية احتياجات السيناريوهات المختلفة، يوفر DeepSeek نسختين:
Janus-Pro-7B: الإصدار الكامل، مع أداء قوي
Janus-Pro-1B: نسخة خفيفة الوزن يمكن تشغيلها مباشرة في المتصفح
كلا الإصدارين مفتوح المصدر على منصة Hugging Face وتم إصدارهما بموجب ترخيص MIT، بحيث يمكن للمطورين استخدامهما وتعديلهما بحرية.
الإنجاز الشامل الذي حققه DeepSeek
والسؤال الأكثر إثارة الآن هو: عندما لا يحتاج الفهم والتوليد إلى نموذجين منفصلين، هل ستتعطل بنية تطبيقات الذكاء الاصطناعي الحالية بشكل جماعي؟
يجب على أولئك الذين لا يزالون يعانون من التطبيقات أحادية الوسيلة التفكير في تطوير تطبيقات تعاونية للعقل الأيسر والأيمن.
ففي نهاية المطاف، النموذج الذي يمكنه اللعب بالنصوص والرسومات في آن واحد هو التجسيد الحقيقي لتعدد الوسائط.
تجدر الإشارة إلى أن إصدار Janus-Pro هو مجرد واحد من سلسلة من الإنجازات الكبرى التي حققتها DeepSeek مؤخرًا:
قامت شركة Perplexity بدمج نموذج DeepSeek R1 للبحث العميق على الويب
يحقق الإصدار المقطر DeepSeek R1 سرعة استنتاج محلية تبلغ 60 رمزاً/ثانية على الآيفون
قفز مساعد الذكاء الاصطناعي DeepSeek إلى قمة قائمة التطبيقات المجانية في متجر التطبيقات
وأظهر أداءً استدلاليًا سريعًا للغاية على منصة Groq.
تُظهر هذه الإنجازات قوة DeepSeek الشاملة في مجال الذكاء الاصطناعي، وقد فتح التقدم الرائد الذي حققه Janus-Pro اتجاهات جديدة لتطوير الذكاء الاصطناعي متعدد الوسائط.
جانوس برو روابط ووثائق ذات صلة
عنوان المشروع:
تنزيلات الطراز:
تجربة سريعة:
لا يوجد نشر، مجاناً، الاستخدام عبر الإنترنت janus pro
الوثائق المرجعية:
أخيرًا، نود أن نقول: يبدو أن اسم شركة سام ألتمان، والفطيرة التي رسمها، والطريق الذي فكر فيه يبدو أنه انتقل إلى هذه الشركة الصينية التي يحركها الفضول، والتي ستواصل الاستكشاف المتعمق لحدود الذكاء!