{"id":847,"date":"2025-02-04T16:27:27","date_gmt":"2025-02-04T16:27:27","guid":{"rendered":"https:\/\/janusai.pro\/?p=847"},"modified":"2025-02-04T16:27:28","modified_gmt":"2025-02-04T16:27:28","slug":"how-good-is-deepseeks-janus-pro","status":"publish","type":"post","link":"https:\/\/janusai.pro\/fr\/how-good-is-deepseeks-janus-pro\/","title":{"rendered":"Quelle est la qualit\u00e9 du Janus-Pro de DeepSeek ?"},"content":{"rendered":"<div style=\"margin-top: 0px; margin-bottom: 0px;\" class=\"sharethis-inline-share-buttons\" ><\/div>\n<p>\u00c0 la veille de la f\u00eate du printemps, le mod\u00e8le DeepSeek-R1 est sorti. Avec son architecture RL pure, il a tir\u00e9 les le\u00e7ons des grandes innovations de CoT, et surpasse les performances du mod\u00e8le DeepSeek-R1. <a href=\"https:\/\/openai.com\/\" target=\"_blank\" rel=\"noreferrer noopener nofollow\">ChatGPT<\/a> en math\u00e9matiques, en code et en raisonnement logique.<\/p>\n\n\n\n<p>En outre, les poids des mod\u00e8les en source ouverte, les faibles co\u00fbts de formation et les prix peu \u00e9lev\u00e9s des API ont fait de DeepSeek un succ\u00e8s sur l'internet, provoquant m\u00eame une chute des cours des actions de NVIDIA et d'ASML pendant un certain temps.<\/p>\n\n\n\n<p>Alors que sa popularit\u00e9 explose, DeepSeek a \u00e9galement publi\u00e9 une version actualis\u00e9e du grand mod\u00e8le multimodal Janus (Janus), Janus-Pro, qui h\u00e9rite de l'architecture unifi\u00e9e de la g\u00e9n\u00e9ration pr\u00e9c\u00e9dente de compr\u00e9hension et de g\u00e9n\u00e9ration multimodales, et optimise la strat\u00e9gie d'entra\u00eenement, en augmentant la taille des donn\u00e9es d'entra\u00eenement et du mod\u00e8le, ce qui permet d'am\u00e9liorer les performances.<\/p>\n\n\n\n<figure class=\"wp-block-image\"><img loading=\"lazy\" decoding=\"async\" width=\"1080\" height=\"427\" src=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/56e80359-198e-4faf-981a-54b7dfe49f02.png\" alt=\"\" class=\"wp-image-850\" srcset=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/56e80359-198e-4faf-981a-54b7dfe49f02.png 1080w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/56e80359-198e-4faf-981a-54b7dfe49f02-300x119.png 300w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/56e80359-198e-4faf-981a-54b7dfe49f02-1024x405.png 1024w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/56e80359-198e-4faf-981a-54b7dfe49f02-768x304.png 768w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/56e80359-198e-4faf-981a-54b7dfe49f02-18x7.png 18w\" sizes=\"auto, (max-width: 1080px) 100vw, 1080px\" \/><\/figure>\n\n\n\n<figure class=\"wp-block-image\"><img loading=\"lazy\" decoding=\"async\" width=\"1080\" height=\"522\" src=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/af7da2cf-a17d-4ac3-95ba-42252fe1a481.png\" alt=\"\" class=\"wp-image-854\" srcset=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/af7da2cf-a17d-4ac3-95ba-42252fe1a481.png 1080w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/af7da2cf-a17d-4ac3-95ba-42252fe1a481-300x145.png 300w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/af7da2cf-a17d-4ac3-95ba-42252fe1a481-1024x495.png 1024w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/af7da2cf-a17d-4ac3-95ba-42252fe1a481-768x371.png 768w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/af7da2cf-a17d-4ac3-95ba-42252fe1a481-18x9.png 18w\" sizes=\"auto, (max-width: 1080px) 100vw, 1080px\" \/><\/figure>\n\n\n\n<div id=\"ez-toc-container\" class=\"ez-toc-v2_0_82_2 counter-hierarchy ez-toc-counter ez-toc-grey ez-toc-container-direction\">\n<div class=\"ez-toc-title-container\">\n<p class=\"ez-toc-title\" style=\"cursor:inherit\">Table des mati\u00e8res<\/p>\n<span class=\"ez-toc-title-toggle\"><a href=\"#\" class=\"ez-toc-pull-right ez-toc-btn ez-toc-btn-xs ez-toc-btn-default ez-toc-toggle\" aria-label=\"Toggle Table des mati\u00e8res\"><span class=\"ez-toc-js-icon-con\"><span class=\"\"><span class=\"eztoc-hide\" style=\"display:none;\">Toggle<\/span><span class=\"ez-toc-icon-toggle-span\"><svg style=\"fill: #999;color:#999\" xmlns=\"http:\/\/www.w3.org\/2000\/svg\" class=\"list-377408\" width=\"20px\" height=\"20px\" viewbox=\"0 0 24 24\" fill=\"none\"><path d=\"M6 6H4v2h2V6zm14 0H8v2h12V6zM4 11h2v2H4v-2zm16 0H8v2h12v-2zM4 16h2v2H4v-2zm16 0H8v2h12v-2z\" fill=\"currentColor\"><\/path><\/svg><svg style=\"fill: #999;color:#999\" class=\"arrow-unsorted-368013\" xmlns=\"http:\/\/www.w3.org\/2000\/svg\" width=\"10px\" height=\"10px\" viewbox=\"0 0 24 24\" version=\"1.2\" baseprofile=\"tiny\"><path d=\"M18.2 9.3l-6.2-6.3-6.2 6.3c-.2.2-.3.4-.3.7s.1.5.3.7c.2.2.4.3.7.3h11c.3 0 .5-.1.7-.3.2-.2.3-.5.3-.7s-.1-.5-.3-.7zM5.8 14.7l6.2 6.3 6.2-6.3c.2-.2.3-.5.3-.7s-.1-.5-.3-.7c-.2-.2-.4-.3-.7-.3h-11c-.3 0-.5.1-.7.3-.2.2-.3.5-.3.7s.1.5.3.7z\"\/><\/svg><\/span><\/span><\/span><\/a><\/span><\/div>\n<nav><ul class='ez-toc-list ez-toc-list-level-1' ><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-1\" href=\"https:\/\/janusai.pro\/fr\/how-good-is-deepseeks-janus-pro\/#Janus-Pro\" >Janus-Pro<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-2\" href=\"https:\/\/janusai.pro\/fr\/how-good-is-deepseeks-janus-pro\/#Model_architecture\" >Architecture du mod\u00e8le<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-3\" href=\"https:\/\/janusai.pro\/fr\/how-good-is-deepseeks-janus-pro\/#Training_strategy\" >Strat\u00e9gie de formation<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-4\" href=\"https:\/\/janusai.pro\/fr\/how-good-is-deepseeks-janus-pro\/#Training_data_scaling\" >Mise \u00e0 l'\u00e9chelle des donn\u00e9es d'apprentissage<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-5\" href=\"https:\/\/janusai.pro\/fr\/how-good-is-deepseeks-janus-pro\/#Model_scaling\" >Mise \u00e0 l'\u00e9chelle du mod\u00e8le<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-6\" href=\"https:\/\/janusai.pro\/fr\/how-good-is-deepseeks-janus-pro\/#Model_evaluation\" >\u00c9valuation du mod\u00e8le<\/a><\/li><\/ul><\/nav><\/div>\n<h2 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Janus-Pro\"><\/span>Janus-Pro<span class=\"ez-toc-section-end\"><\/span><\/h2>\n\n\n\n<p><a href=\"https:\/\/huggingface.co\/deepseek-ai\/Janus-Pro-7B\" target=\"_blank\" rel=\"noreferrer noopener nofollow\">Janus-Pro<\/a> est un mod\u00e8le de langage multimodal unifi\u00e9 (MLLM) qui peut traiter simultan\u00e9ment des t\u00e2ches de compr\u00e9hension et de g\u00e9n\u00e9ration multimodales, c'est-\u00e0-dire qu'il peut comprendre le contenu d'une image et g\u00e9n\u00e9rer du texte.<\/p>\n\n\n\n<p>Il d\u00e9couple les encodeurs visuels pour la compr\u00e9hension et la g\u00e9n\u00e9ration multimodales (c'est-\u00e0-dire que des tokenizers diff\u00e9rents sont utilis\u00e9s pour l'entr\u00e9e de la compr\u00e9hension de l'image et pour l'entr\u00e9e et la sortie de la g\u00e9n\u00e9ration de l'image), et les traite en utilisant un transformateur autor\u00e9gressif unifi\u00e9.<\/p>\n\n\n\n<p>En tant que mod\u00e8le avanc\u00e9 de compr\u00e9hension et de g\u00e9n\u00e9ration multimodale, il s'agit d'une version am\u00e9lior\u00e9e du pr\u00e9c\u00e9dent mod\u00e8le Janus.<\/p>\n\n\n\n<p>Dans la mythologie romaine, Janus est un dieu gardien \u00e0 deux visages qui symbolise la contradiction et la transition. Il a deux visages, ce qui sugg\u00e8re \u00e9galement que le mod\u00e8le Janus peut comprendre et g\u00e9n\u00e9rer des images, ce qui est tout \u00e0 fait appropri\u00e9. Qu'est-ce que PRO a am\u00e9lior\u00e9 exactement ?<\/p>\n\n\n\n<p>Janus, en tant que petit mod\u00e8le de 1.3B, ressemble plus \u00e0 une version pr\u00e9liminaire qu'\u00e0 une version officielle. Il explore la compr\u00e9hension et la g\u00e9n\u00e9ration multimodales unifi\u00e9es, mais pr\u00e9sente de nombreux probl\u00e8mes, tels que des effets de g\u00e9n\u00e9ration d'images instables, des \u00e9carts importants par rapport aux instructions de l'utilisateur et des d\u00e9tails inad\u00e9quats.<\/p>\n\n\n\n<p>La version Pro optimise la strat\u00e9gie d'entra\u00eenement, augmente l'ensemble des donn\u00e9es d'entra\u00eenement et fournit un plus grand mod\u00e8le (7B) \u00e0 choisir tout en fournissant un mod\u00e8le 1B.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Model_architecture\"><\/span>Architecture du mod\u00e8le<span class=\"ez-toc-section-end\"><\/span><\/h2>\n\n\n\n<p><a href=\"https:\/\/huggingface.co\/deepseek-ai\/Janus-Pro-7B\" target=\"_blank\" rel=\"noreferrer noopener nofollow\">Jaus-Pro et Janus<\/a> sont identiques en termes d'architecture du mod\u00e8le. (Seulement 1.3B ! Janus unifie la compr\u00e9hension et la g\u00e9n\u00e9ration multimodale)<\/p>\n\n\n\n<figure class=\"wp-block-image\"><img loading=\"lazy\" decoding=\"async\" width=\"1080\" height=\"571\" src=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/60356ab0-3c6e-4017-9eba-7ee44e0a1006.png\" alt=\"\" class=\"wp-image-851\" srcset=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/60356ab0-3c6e-4017-9eba-7ee44e0a1006.png 1080w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/60356ab0-3c6e-4017-9eba-7ee44e0a1006-300x159.png 300w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/60356ab0-3c6e-4017-9eba-7ee44e0a1006-1024x541.png 1024w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/60356ab0-3c6e-4017-9eba-7ee44e0a1006-768x406.png 768w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/60356ab0-3c6e-4017-9eba-7ee44e0a1006-18x10.png 18w\" sizes=\"auto, (max-width: 1080px) 100vw, 1080px\" \/><\/figure>\n\n\n\n<p>Le principe de base de la conception est de d\u00e9coupler l'encodage visuel pour favoriser la compr\u00e9hension et la g\u00e9n\u00e9ration multimodales. Janus-Pro encode s\u00e9par\u00e9ment l'image ou le texte d'origine, extrait des caract\u00e9ristiques \u00e0 haute dimension et les traite au moyen d'un transformateur autor\u00e9gressif unifi\u00e9.<\/p>\n\n\n\n<p>La compr\u00e9hension multimodale d'images utilise SigLIP pour encoder les caract\u00e9ristiques de l'image (encodeur bleu dans la figure ci-dessus), et la t\u00e2che de g\u00e9n\u00e9ration utilise le tokenizer VQ pour discr\u00e9tiser l'image (encodeur jaune dans la figure ci-dessus). Enfin, toutes les s\u00e9quences de caract\u00e9ristiques sont introduites dans le LLM pour traitement<\/p>\n\n\n\n<h2 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Training_strategy\"><\/span>Strat\u00e9gie de formation<span class=\"ez-toc-section-end\"><\/span><\/h2>\n\n\n\n<p>En ce qui concerne la strat\u00e9gie de formation, Janus-Pro a apport\u00e9 d'autres am\u00e9liorations. L'ancienne version de Janus utilisait une strat\u00e9gie de formation en trois \u00e9tapes, dans laquelle l'\u00e9tape I entra\u00eene l'adaptateur d'entr\u00e9e et la t\u00eate de g\u00e9n\u00e9ration d'images pour la compr\u00e9hension et la g\u00e9n\u00e9ration d'images, l'\u00e9tape II effectue un pr\u00e9-entra\u00eenement unifi\u00e9 et l'\u00e9tape III affine l'encodeur de compr\u00e9hension sur cette base. (La strat\u00e9gie de formation de Janus est illustr\u00e9e dans la figure ci-dessous).<\/p>\n\n\n\n<figure class=\"wp-block-image\"><img loading=\"lazy\" decoding=\"async\" width=\"1080\" height=\"381\" src=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/dbf6954f-1a18-4572-a452-ec995c8af71a.png\" alt=\"\" class=\"wp-image-849\" srcset=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/dbf6954f-1a18-4572-a452-ec995c8af71a.png 1080w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/dbf6954f-1a18-4572-a452-ec995c8af71a-300x106.png 300w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/dbf6954f-1a18-4572-a452-ec995c8af71a-1024x361.png 1024w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/dbf6954f-1a18-4572-a452-ec995c8af71a-768x271.png 768w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/dbf6954f-1a18-4572-a452-ec995c8af71a-18x6.png 18w\" sizes=\"auto, (max-width: 1080px) 100vw, 1080px\" \/><\/figure>\n\n\n\n<p>Cependant, cette strat\u00e9gie utilise la m\u00e9thode PixArt pour diviser la formation de la g\u00e9n\u00e9ration de texte en image dans l'\u00e9tape II, ce qui entra\u00eene une faible efficacit\u00e9 de calcul.<\/p>\n\n\n\n<p>\u00c0 cette fin, nous avons prolong\u00e9 le temps d'apprentissage de la phase I et ajout\u00e9 l'apprentissage avec les donn\u00e9es ImageNet, de sorte que le mod\u00e8le puisse mod\u00e9liser efficacement les d\u00e9pendances entre les pixels avec des param\u00e8tres LLM fixes. \u00c0 l'\u00e9tape II, nous avons supprim\u00e9 les donn\u00e9es ImageNet et utilis\u00e9 directement les donn\u00e9es de paires texte-image pour l'entra\u00eenement, ce qui am\u00e9liore l'efficacit\u00e9 de l'entra\u00eenement. En outre, nous avons ajust\u00e9 le ratio de donn\u00e9es \u00e0 l'\u00e9tape III (donn\u00e9es multimodales:texte seul:graphique visuel-s\u00e9mantique de 7:3:10 \u00e0 5:1:4), am\u00e9liorant ainsi la compr\u00e9hension multimodale tout en conservant les capacit\u00e9s de g\u00e9n\u00e9ration visuelle.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Training_data_scaling\"><\/span>Mise \u00e0 l'\u00e9chelle des donn\u00e9es d'apprentissage<span class=\"ez-toc-section-end\"><\/span><\/h2>\n\n\n\n<p>Janus-Pro met \u00e9galement \u00e0 l'\u00e9chelle les donn\u00e9es d'entra\u00eenement de Janus en termes de compr\u00e9hension multimodale et de g\u00e9n\u00e9ration visuelle.<\/p>\n\n\n\n<p>Compr\u00e9hension multimodale : Les donn\u00e9es de pr\u00e9-entra\u00eenement de l'\u00e9tape II sont bas\u00e9es sur DeepSeek-VL2 et comprennent environ 90 millions de nouveaux \u00e9chantillons, y compris des donn\u00e9es de l\u00e9gende d'images (telles que YFCC) et des donn\u00e9es de compr\u00e9hension de tableaux, de graphiques et de documents (telles que Docmatix).<\/p>\n\n\n\n<p>L'\u00e9tape III de mise au point supervis\u00e9e introduit en outre la compr\u00e9hension de MEME, des donn\u00e9es de dialogue chinoises, etc., afin d'am\u00e9liorer les performances du mod\u00e8le en mati\u00e8re de traitement multit\u00e2che et de capacit\u00e9s de dialogue.<\/p>\n\n\n\n<p>G\u00e9n\u00e9ration visuelle : Les versions pr\u00e9c\u00e9dentes utilisaient des donn\u00e9es r\u00e9elles de faible qualit\u00e9 et tr\u00e8s bruit\u00e9es, ce qui affectait la stabilit\u00e9 et l'esth\u00e9tique des images g\u00e9n\u00e9r\u00e9es par le texte.<\/p>\n\n\n\n<p>Janus-Pro introduit environ 72 millions de donn\u00e9es esth\u00e9tiques synth\u00e9tiques, ce qui porte le rapport entre les donn\u00e9es r\u00e9elles et les donn\u00e9es synth\u00e9tiques \u00e0 1:1. Les exp\u00e9riences ont montr\u00e9 que les donn\u00e9es synth\u00e9tiques acc\u00e9l\u00e8rent la convergence des mod\u00e8les et am\u00e9liorent consid\u00e9rablement la stabilit\u00e9 et la qualit\u00e9 esth\u00e9tique des images g\u00e9n\u00e9r\u00e9es.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Model_scaling\"><\/span>Mise \u00e0 l'\u00e9chelle du mod\u00e8le<span class=\"ez-toc-section-end\"><\/span><\/h2>\n\n\n\n<p>Janus Pro \u00e9tend la taille du mod\u00e8le \u00e0 7B, alors que la version pr\u00e9c\u00e9dente de Janus utilisait 1,5B DeepSeek-LLM pour v\u00e9rifier l'efficacit\u00e9 du d\u00e9couplage de l'encodage visuel. Les exp\u00e9riences montrent qu'un LLM plus grand acc\u00e9l\u00e8re consid\u00e9rablement la convergence de la compr\u00e9hension multimodale et de la g\u00e9n\u00e9ration visuelle, ce qui confirme la forte \u00e9volutivit\u00e9 de la m\u00e9thode.<\/p>\n\n\n\n<figure class=\"wp-block-image\"><img loading=\"lazy\" decoding=\"async\" width=\"864\" height=\"352\" src=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/a19590e2-1805-493d-85e3-09c9b8e2274b.png\" alt=\"\" class=\"wp-image-848\" srcset=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/a19590e2-1805-493d-85e3-09c9b8e2274b.png 864w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/a19590e2-1805-493d-85e3-09c9b8e2274b-300x122.png 300w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/a19590e2-1805-493d-85e3-09c9b8e2274b-768x313.png 768w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/a19590e2-1805-493d-85e3-09c9b8e2274b-18x7.png 18w\" sizes=\"auto, (max-width: 864px) 100vw, 864px\" \/><\/figure>\n\n\n\n<figure class=\"wp-block-image\"><img loading=\"lazy\" decoding=\"async\" width=\"1080\" height=\"536\" src=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/c78ed17c-6e07-43ef-bfda-ae287f597bba.png\" alt=\"\" class=\"wp-image-852\" srcset=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/c78ed17c-6e07-43ef-bfda-ae287f597bba.png 1080w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/c78ed17c-6e07-43ef-bfda-ae287f597bba-300x149.png 300w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/c78ed17c-6e07-43ef-bfda-ae287f597bba-1024x508.png 1024w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/c78ed17c-6e07-43ef-bfda-ae287f597bba-768x381.png 768w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/c78ed17c-6e07-43ef-bfda-ae287f597bba-18x9.png 18w\" sizes=\"auto, (max-width: 1080px) 100vw, 1080px\" \/><\/figure>\n\n\n\n<p>L'exp\u00e9rience utilise DeepSeek-LLM (1.5B et 7B, supportant une s\u00e9quence maximale de 4096) comme mod\u00e8le de langage de base. Pour la t\u00e2che de compr\u00e9hension multimodale, SigLIP-Large-Patch16-384 est utilis\u00e9 comme codeur visuel, la taille du dictionnaire du codeur est de 16384, le multiple de sous-\u00e9chantillonnage de l'image est de 16, et les adaptateurs de compr\u00e9hension et de g\u00e9n\u00e9ration sont des MLP \u00e0 deux couches.<\/p>\n\n\n\n<p>La phase II de la formation utilise une strat\u00e9gie d'arr\u00eat pr\u00e9coce de 270K, toutes les images sont uniform\u00e9ment ajust\u00e9es \u00e0 une r\u00e9solution de 384\u00d7384, et l'emballage des s\u00e9quences est utilis\u00e9 pour am\u00e9liorer l'efficacit\u00e9 de la formation. Le Janus-Pro est entra\u00een\u00e9 et \u00e9valu\u00e9 \u00e0 l'aide de HAI-LLM. Les versions 1.5B\/7B ont \u00e9t\u00e9 entra\u00een\u00e9es sur 16\/32 n\u0153uds (8\u00d7Nvidia A100 40GB par n\u0153ud) pendant 9\/14 jours respectivement.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Model_evaluation\"><\/span>\u00c9valuation du mod\u00e8le<span class=\"ez-toc-section-end\"><\/span><\/h2>\n\n\n\n<p>Janus-Pro a \u00e9t\u00e9 \u00e9valu\u00e9 s\u00e9par\u00e9ment pour la compr\u00e9hension et la g\u00e9n\u00e9ration multimodales. Dans l'ensemble, la compr\u00e9hension peut \u00eatre l\u00e9g\u00e8rement faible, mais elle est consid\u00e9r\u00e9e comme excellente parmi les mod\u00e8les open source de la m\u00eame taille (on suppose qu'elle est largement limit\u00e9e par la r\u00e9solution d'entr\u00e9e fixe et les capacit\u00e9s d'OCR).<\/p>\n\n\n\n<p>Le Janus-Pro-7B a obtenu un score de 79,2 au test de r\u00e9f\u00e9rence MMBench, ce qui est proche du niveau des mod\u00e8les open source de premier plan (la m\u00eame taille d'InternVL2.5 et de Qwen2-VL est d'environ 82 points). Cependant, il s'agit d'une bonne am\u00e9lioration par rapport \u00e0 la g\u00e9n\u00e9ration pr\u00e9c\u00e9dente de Janus.<\/p>\n\n\n\n<p>En termes de g\u00e9n\u00e9ration d'images, l'am\u00e9lioration par rapport \u00e0 la g\u00e9n\u00e9ration pr\u00e9c\u00e9dente est encore plus significative et est consid\u00e9r\u00e9e comme un excellent niveau parmi les mod\u00e8les open source. Le score de Janus-Pro dans le test de r\u00e9f\u00e9rence GenEval (0,80) d\u00e9passe \u00e9galement des mod\u00e8les tels que DALL-E 3 (0,67) et Stable Diffusion 3 Medium (0,74).<\/p>\n\n\n\n<figure class=\"wp-block-image\"><img loading=\"lazy\" decoding=\"async\" width=\"1080\" height=\"827\" src=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/47aa92e1-b474-4874-956e-db210da9d349.png\" alt=\"\" class=\"wp-image-853\" srcset=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/47aa92e1-b474-4874-956e-db210da9d349.png 1080w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/47aa92e1-b474-4874-956e-db210da9d349-300x230.png 300w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/47aa92e1-b474-4874-956e-db210da9d349-1024x784.png 1024w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/47aa92e1-b474-4874-956e-db210da9d349-768x588.png 768w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/47aa92e1-b474-4874-956e-db210da9d349-16x12.png 16w\" sizes=\"auto, (max-width: 1080px) 100vw, 1080px\" \/><\/figure>\n\n\n\n<figure class=\"wp-block-image\"><img loading=\"lazy\" decoding=\"async\" width=\"1080\" height=\"744\" src=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/38de369b-7f1f-4159-83a7-5f411e816d55.png\" alt=\"\" class=\"wp-image-855\" srcset=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/38de369b-7f1f-4159-83a7-5f411e816d55.png 1080w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/38de369b-7f1f-4159-83a7-5f411e816d55-300x207.png 300w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/38de369b-7f1f-4159-83a7-5f411e816d55-1024x705.png 1024w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/38de369b-7f1f-4159-83a7-5f411e816d55-768x529.png 768w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/38de369b-7f1f-4159-83a7-5f411e816d55-18x12.png 18w\" sizes=\"auto, (max-width: 1080px) 100vw, 1080px\" \/><\/figure>","protected":false},"excerpt":{"rendered":"<p>\u00c0 la veille de la f\u00eate du printemps, le mod\u00e8le DeepSeek-R1 a \u00e9t\u00e9 publi\u00e9. Avec son architecture RL pure, il a appris des grandes innovations de CoT et surpasse ChatGPT en math\u00e9matiques, en code et en raisonnement logique. En outre, ses poids de mod\u00e8le en source ouverte, ses faibles co\u00fbts d'entra\u00eenement et ses prix d'API bon march\u00e9 ont fait de DeepSeek un succ\u00e8s sur Internet, m\u00eame...<\/p>","protected":false},"author":2,"featured_media":704,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_kadence_starter_templates_imported_post":false,"_kad_post_transparent":"","_kad_post_title":"","_kad_post_layout":"","_kad_post_sidebar_id":"","_kad_post_content_style":"","_kad_post_vertical_padding":"","_kad_post_feature":"","_kad_post_feature_position":"","_kad_post_header":false,"_kad_post_footer":false,"footnotes":""},"categories":[1],"tags":[],"class_list":["post-847","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-uncategorized"],"_links":{"self":[{"href":"https:\/\/janusai.pro\/fr\/wp-json\/wp\/v2\/posts\/847","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/janusai.pro\/fr\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/janusai.pro\/fr\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/janusai.pro\/fr\/wp-json\/wp\/v2\/users\/2"}],"replies":[{"embeddable":true,"href":"https:\/\/janusai.pro\/fr\/wp-json\/wp\/v2\/comments?post=847"}],"version-history":[{"count":1,"href":"https:\/\/janusai.pro\/fr\/wp-json\/wp\/v2\/posts\/847\/revisions"}],"predecessor-version":[{"id":856,"href":"https:\/\/janusai.pro\/fr\/wp-json\/wp\/v2\/posts\/847\/revisions\/856"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/janusai.pro\/fr\/wp-json\/wp\/v2\/media\/704"}],"wp:attachment":[{"href":"https:\/\/janusai.pro\/fr\/wp-json\/wp\/v2\/media?parent=847"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/janusai.pro\/fr\/wp-json\/wp\/v2\/categories?post=847"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/janusai.pro\/fr\/wp-json\/wp\/v2\/tags?post=847"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}