لقد انتشر نموذج المصدر المفتوح منخفض التكلفة وعالي الأداء لموقع deepseek منخفض التكلفة وعالي الأداء. فقد سجّل عدد كبير من المستخدمين الجدد في موقع deepseek، مما تسبب في تعطل الموقع مراراً وتكراراً.
في ظل التطور السريع لتكنولوجيا الذكاء الاصطناعي، تغير النماذج اللغوية الكبيرة (LLMs) كل جانب من جوانب عملنا وحياتنا.
ولكنها شهدت أيضاً العديد من الصعوبات والتحديات على مدار الفترة الزمنية الماضية. وفي هذا المجال، تبرز شركة DeepSeek بتقنياتها المبتكرة وأدائها المتميز.
سوف نتعمق في Janus Pro DeepSeek، وهو أحدث نموذج للذكاء الاصطناعي وأحدث نموذج كبير متعدد الوسائط مفتوح المصدر من DeepSeek. تعرّف على ميزاته التقنية وتاريخ تطويره وقيمة تطبيقه العملي.
ما هو Janus Pro DeepSeek?

Janus Pro هو نموذج ذكاء اصطناعي متعدد الوسائط مفتوح المصدر أصدره فريق DeepSeek، ويُستخدم بشكل أساسي لفهم الصور وتوليد الصور.
الوظائف الأساسية
- الفهم والتوليد متعدد الوسائط: Janus Pro يمكنه معالجة كل من النص والصور في نفس الوقت، حيث يمكنه فهم محتوى الصورة وتوليد الصور بناءً على الوصف النصي.
- نموذج مفتوح المصدر وواسع النطاق: وهي متوفرة في حجمين من البارامترات، 1B و7B، وهي مفتوحة المصدر ومتاحة تجارياً
تطوير Janus Pro DeepSeek
التأسيس والتطوير
- تموز/يوليو 2023: تأسست شركة DeepSeek رسميًا، ومقرها في هانغتشو، وتركز على البحث والتطوير في مجال الذكاء الاصطناعي العام (AGI).
- 2 نوفمبر 2023: إصدار أول نموذج كود مفتوح المصدر كبير الحجم DeepSeek Coder، والذي يدعم توليد الأكواد وتصحيح الأخطاء ومهام تحليل البيانات بلغات برمجة متعددة.
- 29 نوفمبر 2023: تم إطلاق DeepSeek LLM، وهو نموذج كبير للأغراض العامة بمقياس بارامترات يبلغ 67 مليار، بما في ذلك الإصدارين الأساسي والدردشة 7B و67B.
الإنجازات التقنية وتكرار المنتجات
- 7 مايو 2024: تم إصدار DeepSeek-V2، وهو الجيل الثاني من نموذج الخبير الهجين المفتوح المصدر (MoE) المفتوح المصدر، بإجمالي 236 مليار معلمة وتكلفة استدلال مخفضة إلى 1 رنمينبي فقط لكل مليون توكن.
- 26 ديسمبر 2024: تم إصدار DeepSeek-V3، بإجمالي 671 مليار معلمة. وهو يعتمد بنية مبتكرة لوزارة التربية والتعليم وتدريباً مختلط الدقة FP8، وتبلغ تكلفة التدريب 5.576 مليون دولار أمريكي فقط.
- 20 يناير 2025: تم إصدار DeepSeek-R1، وهو جيل جديد من النموذج الاستدلالي، بأداء يضاهي الإصدار الرسمي من OpenAI o1، ومفتوح المصدر.

في 27 يناير janus pro نموذج متعدد الوسائط janus pro تم إصداره، وتم فتح مصادره مباشرةً بعد الإصدار، حتى يتمكن المزيد من الأشخاص من المشاركة في عملية تطوير نماذج الذكاء الاصطناعي الكبيرة واستخدام أحدث تقنيات الذكاء الاصطناعي وتعلمها بموارد محدودة.
Janus Pro تقنية DeepSeek الأساسية في DeepSeek

فصل الترميز المرئي
Janus Pro يستخدم تقنية فصل التشفير البصري لتقسيم مسار التشفير البصري إلى مسارات معالجة مستقلة، والتي تُستخدم لمهام الفهم والتوليد متعدد الوسائط على التوالي. يحل هذا التصميم بفعالية مشكلة التعارض الوظيفي بين المشفر البصري في مهام الفهم والتوليد في النماذج التقليدية متعددة الوسائط، ويحسن مرونة النموذج وقدرته على التكيف مع المهام.
بنية المحول الموحد
على الرغم من فصل مسار الترميز المرئي، لا يزال Janus Pro يستخدم بنية محول واحد للتعامل مع المهام متعددة الوسائط. تعمل هذه البنية الموحدة على تبسيط تصميم النماذج مع تحسين قابلية توسع النماذج وقدرة النماذج على العمل معًا عبر المهام.
استراتيجية التدريب الأمثل
أدخلت Janus Pro عددًا من التحسينات على استراتيجية التدريب، بما في ذلك
- تمديد وقت تدريب مجموعة بيانات ImageNet لتحسين قدرات النموذج على فهم الصور.
- بالتركيز على تدريب بيانات تحويل النص إلى صورة، يتم تحسين القدرة التوليدية للنموذج.
- يضمن ضبط نسبة بيانات التدريب أن يؤدي النموذج أداءً أكثر استقرارًا وكفاءة في المهام متعددة الوسائط.
بيانات التدريب الموسعة
يستخدم Janus Pro بيانات تدريب واسعة النطاق ومتنوعة، بما في ذلك بيانات الفهم متعدد الوسائط وبيانات التوليد المرئي. لا يؤدي توسيع نطاق هذه البيانات إلى تحسين قدرة النموذج على الفهم فحسب، بل يعزز أيضًا من جودته التوليدية.
برنامج ترميز مرئي مبتكر
بالنسبة لمهام الفهم متعدد الوسائط، يستخدم Janus Pro نموذج SigLIP-L كمشفر مرئي، والذي يدعم مدخلات الصور بدقة تصل إلى 384×384. يسمح هذا الدعم عالي الدقة للنموذج بالتقاط المزيد من تفاصيل الصورة، وبالتالي تحسين دقة الفهم البصري.
وحدة توليد عالية الأداء
بالنسبة لمهام توليد الصور، يستخدم Janus Pro برنامج LlamaGen Tokenizer بمعدل تصغير 16 لتوليد صور أكثر تفصيلاً. هذا التصميم يجعل الصور التي تم إنشاؤها أكثر واقعية وتفصيلاً.
ابتكارات البنية التحتية
Janus Pro مبني على نموذجي DeepSeek-LLM-1.5b و DeepSeek-LLM-7b، اللذين يزودان النموذج بقدرات معالجة متعددة الوسائط قوية، مما يجعله يتفوق في مهام الفهم والتوليد متعدد الوسائط.
فهم متعدد الوسائط وقدرات التوليد
Janus Pro قادر ليس فقط على التعامل مع مهام الفهم متعدد الوسائط (مثل الإجابة عن الأسئلة المرئية والتعليق على الصور)، ولكن أيضًا توليد صور عالية الجودة من الأوصاف النصية. هذه القدرة تجعله يتفوق في السيناريوهات متعددة الوسائط.

أداء Janus Pro DeepSeek
يتفوق نموذج Janus-Pro من DeepSeek في مهام الفهم والتوليد متعدد الوسائط. وفيما يلي تحليل مفصل لأدائه:
أداء الفهم المتعدد الوسائط المتعددة
- معيار MMBench: حقق Janus-Pro-7B درجة 79.2 في معيار MMBench للفهم متعدد الوسائط، متجاوزًا بذلك أحدث النماذج الموحدة متعددة الوسائط الحالية بما في ذلك Janus (69.4) وTokenFlow (68.9) وMetaMorph (75.2).
- الإجابة عن الأسئلة المرئية: تتفوق دقة Janus-Pro في الإجابة عن الأسئلة المرئية على GPT-4V، حيث تتفوق دقة تحديد التفاصيل في الصور والإجابة عن الأسئلة ذات الصلة بدقة.
تتبع أمر تحويل النص إلى صورة
- اختبار GenEval المعياري: حقّق Janus-Pro-7B دقة إجمالية بلغت 80% في اختبار GenEval، متفوقًا بشكل كبير على نماذج أخرى مثل DALL-E 3 (67%) و Stable Diffusion 3 Medium (74%).
فهم الأوامر المعقدة: في اختبار DPG-Bench، سجّل Janus-Pro-7B 84.19 نقطة ممتازة وتمكن من توليد مشاهد معقدة بدقة مثل "جبل ثلجي مع بحيرة زرقاء في الأعلى".
أداء تحويل النص إلى صورة
- جودة الصورة وثباتها: على الرغم من دقة الإخراج التي تبلغ 384×384، تُظهر الصور التي تم إنشاؤها بواسطة Janus-Pro-7B درجة عالية من الواقعية والتفاصيل الغنية، خاصة عند معالجة المشاهد الخيالية والإبداعية. ويمكنه فهم المعلومات الدلالية بدقة في الكلمات الفورية وتوليد صور معقولة ومتماسكة منطقياً.
- سرعة التوليد: يدعم Janus-Pro توليد صور بدقة 4K على بطاقة واحدة، وهو أسرع بمرتين من Stable Diffusion 3.
بنية النموذج والتدريب
- فصل الترميز البصري: Janus-Pro يستخدم طريقة ترميز مستقلة لتحويل المدخلات الأصلية إلى ميزات، والتي تتم معالجتها بعد ذلك بواسطة محول انحداري ذاتي موحد لتحقيق فصل الترميز البصري في مهام الفهم والتوليد متعدد الوسائط.
- بيانات التدريب: يدمج Janus-Pro 72 مليون صورة اصطناعية عالية الجودة في التدريب لضمان نسبة 1:1 من البيانات الحقيقية إلى الاصطناعية. كما أنه يضيف حوالي 90 مليون عينة من بيانات التدريب على الفهم متعدد الوسائط، مما يحسن أداء النموذج بشكل كبير.
قابلية التوسع والنشر
حجم النموذج: توفر السلسلة Janus-Pro نماذج بأحجام معلمات 1B و7B، والتي تأخذ في الاعتبار كلاً من الأداء وتكاليف الحوسبة وهي مناسبة لمزيد من حالات الاستخدام.
الحد الأدنى من النشر: تم إصدار Janus-Pro بموجب ترخيص MIT، ويدعم الاستخدام التجاري، ويوفر نسختين: 1.5B (تتطلب ذاكرة وصول عشوائي VRAM بسعة 16 جيجابايت) و7B (تتطلب ذاكرة وصول عشوائي VRAM بسعة 24 جيجابايت)، والتي يمكن تشغيلها على وحدات معالجة رسومات قياسية.
سيناريوهات التطبيق العملي ل Janus Pro DeepSeek
تتمتع نماذج الذكاء الاصطناعي متعددة الوسائط، وخاصة نماذج تحويل النص إلى صورة، بإمكانيات كبيرة للتطوير في القطاع التجاري. بعد فترة طويلة من التطوير، حققت نماذج تحويل النص إلى صورة بالذكاء الاصطناعي تقدمًا كبيرًا بالفعل
في السيناريو الأكثر شيوعًا لتصميم الإعلانات أو الملصقات، يمكن للمصممين أو المستخدمين استخدام Janus pro لإدخال وصف نصي لإنشاء ملصقات عالية الجودة بسرعة. من خلال تكرار النماذج الأولية للملصقات، يمكنهم توفير وقت التصميم وتحسين الكفاءة الإبداعية. يمكن أن يؤدي ذلك إلى تحسين كفاءة المصممين إلى حد كبير، حيث يمكنهم قضاء الوقت في أشياء أكثر فائدة
بالإضافة إلى تصميم الملصقات أو تصميم الإعلانات التقليدية، في إعدادات الألعاب الأكثر شيوعًا في الوقت الحاضر، يمكن أن يساعد نموذج ai الكبير المصممين أيضًا على إنشاء مشاهد اللعبة والشخصيات والعناصر في الوقت الفعلي، مما يقلل من تكلفة وصعوبة التطوير مع تحسين التأثيرات البصرية للعبة. نحن نعتقد أن نموذج الذكاء الاصطناعي الكبير يمكن أن يستمر في إطلاق العنان لإمكانات وخيال المبدعين، وتحقيق منتجات أكثر إثارة للاهتمام
بالإضافة إلى مجال التصميم، سيشهد النموذج متعدد الوسائط تطورًا كبيرًا في مجالات التعلم والتعليم والمجال الرأسي المهني في الطب.
في المستقبل، قد نشهد في المستقبل ظهور المزيد من التطبيقات المثيرة للاهتمام التي يمكن أن تحسن بشكل كبير من كفاءة وجودة حياتنا.
وفي الوقت نفسه، تقلل ميزات Janus-Pro مفتوحة المصدر (ترخيص MIT) وطرق النشر البسيطة (تدعم التشغيل على وحدات معالجة الرسومات القياسية) من عائق الدخول، مما يجعلها قابلة للتطبيق على نطاق واسع في المجالات المذكورة أعلاه.
يتيح ذلك للمزيد من المستخدمين المشاركة في التطوير، حتى يتمكن المزيد من الأشخاص من تحسين هذه الوظائف وتعزيز قدرات المجتمع بأكمله.
كيف أختار الإصدار المناسب لي من Janus Pro DeepSeek؟
Janus-Pro مفتوح المصدر في نسختين: Janus-Pro-1B وJanus-Pro-7B. يعتمد الإصدار الذي تختاره على احتياجاتك الخاصة وموارد الحوسبة وسيناريوهات التطبيق. فيما يلي مقارنة تفصيلية وتوصيات مفصلة:
سيناريوهات قابلة للتطبيق
Janus-Pro-1B:
- تطبيقات خفيفة الوزن: مناسبة للاستخدام على الأجهزة المحمولة أو في المتصفحات أو في البيئات محدودة الموارد. يتيح ذلك لعدد أكبر من المستخدمين تجربة أحدث تطبيقات Janus pro.
- النماذج الأولية السريعة: مناسبة للتطوير السريع واختبار الوظائف متعددة الوسائط دون الحاجة إلى الكثير من موارد الحوسبة. وهذا أمر مهم للغاية بالنسبة لعشاق الذكاء الاصطناعي الذين يمكنهم تكرار واكتشاف المشاكل التي تواجههم في البحث بسرعة دون الحاجة إلى الكثير من موارد الحوسبة.
Janus-Pro-7B
- توليد صور عالية الجودة: مناسب للتطبيقات التي تتطلب توليد صور عالية الجودة للمشاهد المعقدة، مثل تصميم الإعلانات وتطوير الألعاب والإبداع الفني. يعد هذا النموذج أكثر ملاءمة لسيناريوهات التصميم الأكثر احترافية، والتي تتطلب قدرات أجهزة أكثر قوة وقدرات حوسبة أكثر قوة
- فهم التعليمات المعقدة: مناسب للسيناريوهات التي تحتاج إلى معالجة تعليمات نصية معقدة وتوليد صور دقيقة، مثل الواقع الافتراضي (VR) والواقع المعزز (AR)
متطلبات النشر
Janus-Pro-1B:
- متطلبات الأجهزة: مناسب للتشغيل على الأجهزة ذات الموارد المحدودة، مثل وحدات معالجة الرسومات التي تتطلب 16 جيجابايت من ذاكرة الوصول العشوائي الافتراضية. إذا لم يكن لديك سوى بطاقة رسومات سابقة، فقد يكون هذا أكثر ملاءمة لك
- سيناريو التطبيق: مناسب للتشغيل في المتصفح أو النشر على أجهزة خفيفة الوزن.
Janus-Pro-7B
- متطلبات الأجهزة: يتطلب موارد حوسبة أعلى، مثل وحدة معالجة رسومات ذات ذاكرة وصول عشوائي VRAM بسعة 24 جيجابايت. سيكون هذا أكثر ملاءمة للمستخدمين الذين لديهم بطاقات رسومات أحدث
- سيناريو التطبيق: مناسب للتشغيل على وحدات معالجة الرسومات القياسية وللسيناريوهات التي تتطلب أداءً عاليًا.
الملخص
إذا كان سيناريو تطبيقك يتطلب جودة صورة عالية وفهمًا معقدًا للتعليمات ولديك موارد حوسبة كافية، فإننا نوصي باستخدام Janus-Pro-7B.
إذا كنت بحاجة إلى نشر خفيف الوزن أو لديك موارد حوسبة محدودة، فإننا نوصي باستخدام Janus-Pro-1B.
الدعم المجتمعي والموارد
يوفر DeepSeek للمطورين ثروة من الموارد والدعم:
- توفر الوثائق الرسمية وصفًا تفصيليًا لواجهة واجهة API وأدلة تقنية، بما في ذلك ضبط النموذج، ودروس النشر، ومحتويات أخرى.
- يوفر مجتمع المطورين منتديات ومجموعات نقاش لتسهيل تبادل الخبرات بين المطورين. وتُعقد جلسات مشاركة تقنية منتظمة ومسابقات هاكاثون.
- يوفر الدعم الفني خدمات الدعم الفني الاحترافي لحل المشاكل التي يواجهها المستخدمون أثناء الاستخدام.