Le modèle open source de deepseek, peu coûteux et très performant, est devenu viral. Un grand nombre de nouveaux utilisateurs se sont inscrits sur le site web de deepseek, ce qui a provoqué à plusieurs reprises des pannes du site.
Avec le développement rapide des technologies d'intelligence artificielle, les grands modèles de langage (LLM) modifient tous les aspects de notre travail et de notre vie.
Mais elle a également connu de nombreuses difficultés et défis au cours de la période écoulée. Dans ce domaine, DeepSeek se distingue par sa technologie innovante et ses performances exceptionnelles.
Nous allons nous plonger dans Janus Pro DeepSeek, le dernier modèle d'IA et le dernier modèle multimodal open source de DeepSeek. Découvrez ses caractéristiques techniques, l'historique de son développement et la valeur de ses applications pratiques.
Qu'est-ce que Janus Pro DeepSeek?

Janus Pro est un modèle d'IA multimodale open-source publié par l'équipe DeepSeek, principalement utilisé pour la compréhension et la génération d'images.
Fonctions essentielles
- Compréhension et génération multimodales: Janus Pro peut traiter simultanément du texte et des images, en comprenant le contenu de l'image et en générant des images basées sur la description du texte.
- Source ouverte et modèle à grande échelle: Il est disponible en deux tailles de paramètres, 1B et 7B, et est open source et disponible dans le commerce.
Développement de la Janus Pro DeepSeek
Établissement et développement
- juillet 2023: DeepSeek, dont le siège se trouve à Hangzhou, est officiellement créée et se concentre sur la recherche et le développement dans le domaine de l'intelligence artificielle générale (AGI).
- 2 novembre 2023: Publication du premier grand modèle de code open source DeepSeek Coder, qui prend en charge la génération de code, le débogage et les tâches d'analyse de données dans plusieurs langages de programmation.
- 29 novembre 2023: DeepSeek LLM, un grand modèle à usage général avec une échelle de paramètres de 67 milliards, est lancé, y compris les versions de base et de chat de 7B et 67B.
Percées techniques et itérations de produits
- 7 mai 2024: DeepSeek-V2, le modèle expert hybride (MoE) open source de deuxième génération, est publié, avec un total de 236 milliards de paramètres et un coût d'inférence réduit à seulement 1 RMB par million de jetons.
- 26 décembre 2024: DeepSeek-V3 est publié, avec un total de 671 milliards de paramètres. Il adopte une architecture MoE innovante et une formation de précision mixte FP8, et le coût de la formation n'est que de 5,576 millions de dollars américains.
- 20 janvier 2025: DeepSeek-R1, une nouvelle génération de modèle d'inférence, est disponible, avec des performances comparables à celles de la version officielle o1 d'OpenAI, et en open source.

Le 27 janvier, la Modèle multimodal janus pro a été publié, et il a été mis en open-source immédiatement après sa publication, afin que davantage de personnes puissent participer au processus de développement de grands modèles d'IA et utiliser et apprendre les dernières technologies d'IA avec des ressources limitées.
Janus Pro Technologie de base de DeepSeek

Découplage du codage visuel
Janus Pro utilise la technologie de découplage de l'encodage visuel pour diviser le chemin d'encodage visuel en chemins de traitement indépendants, qui sont utilisés respectivement pour les tâches de compréhension et de génération multimodales. Cette conception résout efficacement le problème du conflit fonctionnel entre le codeur visuel dans les tâches de compréhension et de génération dans les modèles multimodaux traditionnels, et améliore la flexibilité et l'adaptabilité du modèle.
Architecture du transformateur unifié
Malgré le découplage de la voie d'encodage visuel, Janus Pro utilise toujours une architecture de transformateur unique pour gérer les tâches multimodales. Cette architecture unifiée simplifie la conception des modèles tout en améliorant leur évolutivité et leur capacité à collaborer entre les tâches.
Stratégie de formation optimisée
Janus Pro a procédé à un certain nombre d'optimisations de la stratégie de formation, notamment
- Extension de la durée d'apprentissage de l'ensemble de données ImageNet afin d'améliorer les capacités de compréhension des images du modèle.
- En se concentrant sur l'entraînement des données texte-image, la capacité de génération du modèle est optimisée.
- L'ajustement de la proportion de données d'entraînement permet au modèle de fonctionner de manière plus stable et plus efficace dans les tâches multimodales.
Données de formation élargies
Janus Pro utilise des données d'entraînement diverses et à grande échelle, y compris des données de compréhension multimodale et des données de génération visuelle. L'expansion de ces données améliore non seulement la capacité de compréhension du modèle, mais aussi sa qualité de génération.
Encodeur visuel innovant
Pour les tâches de compréhension multimodale, Janus Pro utilise SigLIP-L comme encodeur visuel, qui prend en charge des images d'une résolution maximale de 384×384. Cette haute résolution permet au modèle de capturer plus de détails de l'image, améliorant ainsi la précision de la compréhension visuelle.
Module génératif performant
Pour les tâches de génération d'images, Janus Pro utilise le tokenizer LlamaGen avec un taux de sous-échantillonnage de 16 pour générer des images plus détaillées. Cette conception rend les images générées plus réalistes et plus détaillées.
Innovations en matière d'infrastructures
Janus Pro est construit sur les modèles DeepSeek-LLM-1.5b et DeepSeek-LLM-7b, qui lui confèrent de puissantes capacités de traitement multimodal, ce qui lui permet d'exceller dans les tâches de compréhension et de génération multimodales.
Capacités de compréhension et de production multimodales
Janus Pro est capable non seulement de traiter des tâches de compréhension multimodale (telles que la réponse à des questions visuelles et le sous-titrage d'images), mais aussi de générer des images de haute qualité à partir de descriptions textuelles. Cette capacité lui permet d'exceller dans les scénarios multimodaux.

Janus Pro Performance de DeepSeek
Le modèle Janus-Pro de DeepSeek excelle dans les tâches de compréhension et de génération multimodales. Voici une analyse détaillée de ses performances :
Performance en matière de compréhension multimodale
- Critère MMBench : Janus-Pro-7B a obtenu un score de 79,2 dans le benchmark MMBench pour la compréhension multimodale, surpassant les modèles multimodaux unifiés de pointe existants, notamment Janus (69,4), TokenFlow (68,9) et MetaMorph (75,2).
- Réponse aux questions visuelles : La précision des réponses aux questions visuelles du Janus-Pro dépasse celle du GPT-4V. Il identifie avec précision les détails des images et répond aux questions qui s'y rapportent.
Suivi des commandes texte-image
- Test de référence GenEval : Janus-Pro-7B a atteint une précision globale de 80% dans le test GenEval, surpassant de manière significative d'autres modèles tels que DALL-E 3 (67%) et Stable Diffusion 3 Medium (74%).
Compréhension des commandes complexes : Lors du test DPG-Bench, Janus-Pro-7B a obtenu un excellent score de 84,19 points et a pu générer avec précision des scènes complexes telles que "une montagne enneigée avec un lac bleu au sommet".
Performance de la génération texte-image
- Qualité et stabilité de l'image : Malgré une résolution de sortie de 384×384, les images générées par Janus-Pro-7B présentent un haut degré de réalisme et une grande richesse de détails, en particulier lors du traitement de scènes imaginatives et créatives. Il est capable de comprendre avec précision les informations sémantiques contenues dans les mots-clés et de générer des images logiquement raisonnables et cohérentes.
- Vitesse de génération : Janus-Pro permet de générer des images 4K sur une seule carte, ce qui est 2 fois plus rapide que Stable Diffusion 3.
Architecture du modèle et formation
- Découplage de l'encodage visuel : Janus-Pro utilise une méthode d'encodage indépendante pour convertir l'entrée originale en caractéristiques, qui sont ensuite traitées par un transformateur autorégressif unifié pour réaliser le découplage de l'encodage visuel dans les tâches de compréhension et de génération multimodales.
- Données d'entraînement : Janus-Pro incorpore 72 millions d'images synthétiques de haute qualité dans la formation afin de garantir un rapport 1:1 entre les données réelles et les données synthétiques. Il ajoute également environ 90 millions d'échantillons de données d'entraînement à la compréhension multimodale, ce qui améliore considérablement les performances du modèle.
Évolutivité et déploiement
Taille du modèle : La série Janus-Pro propose des modèles avec des paramètres de taille 1B et 7B, qui tiennent compte à la fois des performances et des coûts informatiques et conviennent à davantage de cas d'utilisation.
Déploiement minimal : Janus-Pro est publié sous la licence MIT, supporte l'utilisation commerciale et fournit deux versions : 1.5B (nécessite 16 Go de VRAM) et 7B (nécessite 24 Go de VRAM), qui peuvent fonctionner sur des GPU standard.
Scénarios d'application pratique de Janus Pro DeepSeek
Les modèles multimodaux d'IA, en particulier les modèles texte-image, ont un grand potentiel de développement dans le secteur commercial. Après une longue période de développement, les modèles texte-image de l'IA ont déjà fait de grands progrès
Dans le scénario le plus courant de la publicité ou de la conception d'affiches, les concepteurs ou les utilisateurs peuvent utiliser Janus pro pour saisir une description textuelle et générer rapidement des affiches de haute qualité. L'itération des prototypes d'affiches leur permet de gagner du temps et d'améliorer l'efficacité de la création. L'efficacité des concepteurs s'en trouve grandement améliorée, ce qui leur permet de consacrer du temps à des tâches plus importantes.
Outre la conception traditionnelle d'affiches ou de publicités, le modèle ai large peut également aider les concepteurs à générer des scènes de jeu, des personnages et des objets en temps réel, réduisant ainsi le coût et la difficulté du développement tout en améliorant les effets visuels du jeu. Nous pensons que le modèle ai large peut continuer à libérer le potentiel et l'imagination des créateurs, et réaliser des produits plus intéressants.
Outre le domaine de la conception, le modèle multimodal connaîtra également un grand développement dans d'autres domaines de l'apprentissage, de l'éducation et dans le domaine vertical professionnel de la médecine.
À l'avenir, nous pourrions assister à l'émergence d'autres applications très intéressantes susceptibles d'améliorer considérablement l'efficacité et la qualité de notre vie.
Par ailleurs, les caractéristiques open source de Janus-Pro (licence MIT) et les méthodes de déploiement minimales (prise en charge de l'exécution sur des GPU standard) réduisent encore la barrière à l'entrée, ce qui le rend largement applicable aux domaines susmentionnés.
Cela permet à un plus grand nombre d'utilisateurs de participer au développement, de sorte qu'un plus grand nombre de personnes peuvent améliorer ces fonctions et renforcer les capacités de l'ensemble de la communauté.
Comment choisir la version de Janus Pro DeepSeek qui me convient ?
Janus-Pro est disponible en libre accès en deux versions : Janus-Pro-1B et Janus-Pro-7B. Le choix de la version dépend de vos besoins spécifiques, de vos ressources informatiques et de vos scénarios d'application. Vous trouverez ci-dessous une comparaison détaillée et des recommandations :
Scénarios applicables
Janus-Pro-1B :
- Applications légères : adaptées à une utilisation sur des appareils mobiles, dans des navigateurs ou dans des environnements où les ressources sont limitées. Cela permet à un plus grand nombre d'utilisateurs de profiter de la dernière version de Janus pro.
- Prototypage rapide : convient au développement et à l'essai rapides de fonctions multimodales sans nécessiter beaucoup de ressources informatiques. C'est très important pour les passionnés d'IA, qui peuvent rapidement itérer et découvrir les problèmes rencontrés dans la recherche sans avoir besoin de beaucoup de ressources informatiques.
Janus-Pro-7B :
- Génération d'images de haute qualité : convient aux applications qui nécessitent la génération d'images de haute qualité de scènes complexes, telles que la conception publicitaire, le développement de jeux et la création artistique. Ce modèle convient mieux aux scénarios de conception plus professionnels, qui nécessitent des capacités matérielles et informatiques plus puissantes.
- Compréhension d'instructions complexes : convient aux scénarios qui nécessitent de traiter des instructions textuelles complexes et de générer des images précises, comme la réalité virtuelle (RV) et la réalité augmentée (RA).
Exigences en matière de déploiement
Janus-Pro-1B :
- Exigences matérielles : convient aux appareils dont les ressources sont limitées, tels que les GPU qui nécessitent 16 Go de VRAM. Si vous n'avez qu'une carte graphique ancienne, ce jeu peut vous convenir davantage.
- Scénario d'application : convient à l'exécution dans le navigateur ou au déploiement sur des dispositifs légers.
Janus-Pro-7B :
- Exigences matérielles : nécessite des ressources informatiques plus importantes, telles qu'un GPU avec 24 Go de VRAM. Cette option conviendra mieux aux utilisateurs disposant de cartes graphiques récentes.
- Scénario d'application : convient à l'exécution sur des GPU standard et à des scénarios nécessitant des performances élevées.
Résumé
Si votre scénario d'application exige une qualité d'image élevée et une compréhension complexe des instructions, et si vous disposez de ressources informatiques suffisantes, nous vous recommandons d'opter pour le modèle Janus-Pro-7B.
Si vous avez besoin d'un déploiement léger ou si vos ressources informatiques sont limitées, nous vous recommandons Janus-Pro-1B.
Soutien et ressources communautaires
DeepSeek met à la disposition des développeurs une multitude de ressources et d'assistance :
- La documentation officielle fournit des descriptions détaillées de l'interface API et des guides techniques, y compris la mise au point du modèle, des tutoriels de déploiement et d'autres contenus.
- La communauté des développeurs propose des forums et des groupes de discussion pour faciliter l'échange d'expériences entre les développeurs. Des sessions de partage technique et des hackathons sont régulièrement organisés.
- L'assistance technique fournit des services professionnels d'assistance technique pour résoudre les problèmes rencontrés par les utilisateurs au cours de l'utilisation.