{"id":746,"date":"2025-01-30T13:05:33","date_gmt":"2025-01-30T13:05:33","guid":{"rendered":"https:\/\/janusai.pro\/?p=746"},"modified":"2025-01-30T13:05:35","modified_gmt":"2025-01-30T13:05:35","slug":"the-complete-explanation-from-deepseek-janus-to-janus-pro","status":"publish","type":"post","link":"https:\/\/janusai.pro\/fr\/the-complete-explanation-from-deepseek-janus-to-janus-pro\/","title":{"rendered":"L'explication compl\u00e8te : de DeepSeek Janus \u00e0 Janus-Pro !"},"content":{"rendered":"<div style=\"margin-top: 0px; margin-bottom: 0px;\" class=\"sharethis-inline-share-buttons\" ><\/div>\n<p>Message \u00e0 retenir : Janus est un mod\u00e8le simple, unifi\u00e9 et extensible de compr\u00e9hension et de g\u00e9n\u00e9ration multimodales qui dissocie la compr\u00e9hension multimodale et le codage visuel g\u00e9n\u00e9r\u00e9, att\u00e9nuant ainsi les conflits potentiels entre les deux t\u00e2ches. Il peut \u00eatre \u00e9tendu pour int\u00e9grer d'autres modalit\u00e9s d'entr\u00e9e \u00e0 l'avenir. Janus-Pro s'appuie sur cette base en optimisant la strat\u00e9gie d'entra\u00eenement (notamment en augmentant le nombre d'\u00e9tapes d'entra\u00eenement, en ajustant les ratios de donn\u00e9es, etc.), en ajoutant davantage de donn\u00e9es (notamment en utilisant des donn\u00e9es synth\u00e9tiques, etc.) et en augmentant la taille du mod\u00e8le (jusqu'\u00e0 7 milliards de param\u00e8tres), ce qui permet d'am\u00e9liorer les capacit\u00e9s de compr\u00e9hension multimodale et d'adh\u00e9sion \u00e0 l'instruction texte-image du mod\u00e8le.<\/p>\n\n\n\n<figure class=\"wp-block-image\"><img decoding=\"async\" src=\"https:\/\/rmy9ct2fln.feishu.cn\/space\/api\/box\/stream\/download\/asynccode\/?code=Mjg4MjEwYjVlNzk0YTgyMTc0NDJlODQ4MTU2ZmRjYTVfWnhaaVEyZlEwUHFrUHNUeGNCOWpCRU1EVDN0QktBMUxfVG9rZW46SkVQZmJmSEhqb1g4YTJ4MVNYdmNPT2oybmVmXzE3MzgyNDIwMzc6MTczODI0NTYzN19WNA\" alt=\"\"\/><\/figure>\n\n\n\n<p><a href=\"https:\/\/github.com\/deepseek-ai\/JanusJanus\" target=\"_blank\" rel=\"noreferrer noopener nofollow\">Adresse du code<\/a><\/p>\n\n\n\n<p><a href=\"https:\/\/github.com\/deepseek-ai\/Janus\/blob\/main\/janus_pro_tech_report.pdf\" target=\"_blank\" rel=\"noreferrer noopener nofollow\">Adresse Janus Pro<\/a><\/p>\n\n\n\n<p><a href=\"https:\/\/huggingface.co\/deepseek-ai\/Janus-Pro-7B\" target=\"_blank\" rel=\"noreferrer noopener nofollow\">Janus-Pro<\/a> est une version avanc\u00e9e des travaux ant\u00e9rieurs de Janus, comprenant (1) une strat\u00e9gie d'entra\u00eenement optimis\u00e9e, (2) des donn\u00e9es d'entra\u00eenement \u00e9largies, et (3) des mod\u00e8les de plus grande taille. Gr\u00e2ce \u00e0 ces am\u00e9liorations, Janus-Pro fait des progr\u00e8s significatifs en mati\u00e8re de compr\u00e9hension multimodale et d'adh\u00e9sion aux instructions texte-image, tout en am\u00e9liorant la stabilit\u00e9 de la g\u00e9n\u00e9ration de texte-image. Avant de d\u00e9cortiquer Janus-Pro, examinons Janus.<\/p>\n\n\n\n<div id=\"ez-toc-container\" class=\"ez-toc-v2_0_82_2 counter-hierarchy ez-toc-counter ez-toc-grey ez-toc-container-direction\">\n<div class=\"ez-toc-title-container\">\n<p class=\"ez-toc-title\" style=\"cursor:inherit\">Table des mati\u00e8res<\/p>\n<span class=\"ez-toc-title-toggle\"><a href=\"#\" class=\"ez-toc-pull-right ez-toc-btn ez-toc-btn-xs ez-toc-btn-default ez-toc-toggle\" aria-label=\"Toggle Table des mati\u00e8res\"><span class=\"ez-toc-js-icon-con\"><span class=\"\"><span class=\"eztoc-hide\" style=\"display:none;\">Toggle<\/span><span class=\"ez-toc-icon-toggle-span\"><svg style=\"fill: #999;color:#999\" xmlns=\"http:\/\/www.w3.org\/2000\/svg\" class=\"list-377408\" width=\"20px\" height=\"20px\" viewbox=\"0 0 24 24\" fill=\"none\"><path d=\"M6 6H4v2h2V6zm14 0H8v2h12V6zM4 11h2v2H4v-2zm16 0H8v2h12v-2zM4 16h2v2H4v-2zm16 0H8v2h12v-2z\" fill=\"currentColor\"><\/path><\/svg><svg style=\"fill: #999;color:#999\" class=\"arrow-unsorted-368013\" xmlns=\"http:\/\/www.w3.org\/2000\/svg\" width=\"10px\" height=\"10px\" viewbox=\"0 0 24 24\" version=\"1.2\" baseprofile=\"tiny\"><path d=\"M18.2 9.3l-6.2-6.3-6.2 6.3c-.2.2-.3.4-.3.7s.1.5.3.7c.2.2.4.3.7.3h11c.3 0 .5-.1.7-.3.2-.2.3-.5.3-.7s-.1-.5-.3-.7zM5.8 14.7l6.2 6.3 6.2-6.3c.2-.2.3-.5.3-.7s-.1-.5-.3-.7c-.2-.2-.4-.3-.7-.3h-11c-.3 0-.5.1-.7.3-.2.2-.3.5-.3.7s.1.5.3.7z\"\/><\/svg><\/span><\/span><\/span><\/a><\/span><\/div>\n<nav><ul class='ez-toc-list ez-toc-list-level-1' ><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-1\" href=\"https:\/\/janusai.pro\/fr\/the-complete-explanation-from-deepseek-janus-to-janus-pro\/#Reviewing_Janus\" >R\u00e9vision de Janus<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-2\" href=\"https:\/\/janusai.pro\/fr\/the-complete-explanation-from-deepseek-janus-to-janus-pro\/#Janus_training_is_divided_into_3_phases\" >La formation Janus est divis\u00e9e en 3 phases :<\/a><ul class='ez-toc-list-level-3' ><li class='ez-toc-heading-level-3'><a class=\"ez-toc-link ez-toc-heading-3\" href=\"https:\/\/janusai.pro\/fr\/the-complete-explanation-from-deepseek-janus-to-janus-pro\/#Phase_1\" >Phase 1<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-3'><a class=\"ez-toc-link ez-toc-heading-4\" href=\"https:\/\/janusai.pro\/fr\/the-complete-explanation-from-deepseek-janus-to-janus-pro\/#Phase_2\" >Phase 2<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-3'><a class=\"ez-toc-link ez-toc-heading-5\" href=\"https:\/\/janusai.pro\/fr\/the-complete-explanation-from-deepseek-janus-to-janus-pro\/#Phase_3\" >Phase 3<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-3'><a class=\"ez-toc-link ez-toc-heading-6\" href=\"https:\/\/janusai.pro\/fr\/the-complete-explanation-from-deepseek-janus-to-janus-pro\/#Training_Objectives\" >Objectifs de la formation<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-3'><a class=\"ez-toc-link ez-toc-heading-7\" href=\"https:\/\/janusai.pro\/fr\/the-complete-explanation-from-deepseek-janus-to-janus-pro\/#Reasoning\" >Raisonnement<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-3'><a class=\"ez-toc-link ez-toc-heading-8\" href=\"https:\/\/janusai.pro\/fr\/the-complete-explanation-from-deepseek-janus-to-janus-pro\/#Possible_extensions\" >Extensions possibles<\/a><\/li><\/ul><\/li><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-9\" href=\"https:\/\/janusai.pro\/fr\/the-complete-explanation-from-deepseek-janus-to-janus-pro\/#Janus-Pro_Upgrade\" >Janus-Pro Mise \u00e0 niveau<\/a><ul class='ez-toc-list-level-3' ><li class='ez-toc-heading-level-3'><a class=\"ez-toc-link ez-toc-heading-10\" href=\"https:\/\/janusai.pro\/fr\/the-complete-explanation-from-deepseek-janus-to-janus-pro\/#Main_Improvements\" >Principales am\u00e9liorations<\/a><ul class='ez-toc-list-level-4' ><li class='ez-toc-heading-level-4'><a class=\"ez-toc-link ez-toc-heading-11\" href=\"https:\/\/janusai.pro\/fr\/the-complete-explanation-from-deepseek-janus-to-janus-pro\/#Training_Strategy\" >Strat\u00e9gie de formation<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-4'><a class=\"ez-toc-link ez-toc-heading-12\" href=\"https:\/\/janusai.pro\/fr\/the-complete-explanation-from-deepseek-janus-to-janus-pro\/#Data_Scale\" >\u00c9chelle de donn\u00e9es<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-4'><a class=\"ez-toc-link ez-toc-heading-13\" href=\"https:\/\/janusai.pro\/fr\/the-complete-explanation-from-deepseek-janus-to-janus-pro\/#Model_Scale\" >Mod\u00e8le r\u00e9duit<\/a><\/li><\/ul><\/li><li class='ez-toc-page-1 ez-toc-heading-level-3'><a class=\"ez-toc-link ez-toc-heading-14\" href=\"https:\/\/janusai.pro\/fr\/the-complete-explanation-from-deepseek-janus-to-janus-pro\/#Experimental_details\" >D\u00e9tails exp\u00e9rimentaux<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-3'><a class=\"ez-toc-link ez-toc-heading-15\" href=\"https:\/\/janusai.pro\/fr\/the-complete-explanation-from-deepseek-janus-to-janus-pro\/#Insufficient\" >Insuffisant<\/a><\/li><\/ul><\/li><\/ul><\/nav><\/div>\n<h2 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Reviewing_Janus\"><\/span>R\u00e9vision de Janus<span class=\"ez-toc-section-end\"><\/span><\/h2>\n\n\n\n<p>Le pr\u00e9d\u00e9cesseur Janus est un cadre autor\u00e9gressif pour la compr\u00e9hension et la g\u00e9n\u00e9ration multimodales unifi\u00e9es, qui est utilis\u00e9 pour d\u00e9coupler le codage visuel de la compr\u00e9hension et de la g\u00e9n\u00e9ration multimodales unifi\u00e9es. Pour la compr\u00e9hension multimodale, la conception suit g\u00e9n\u00e9ralement LLaVA, en utilisant les codeurs visuels comme un pont pour permettre aux grands mod\u00e8les de langage de comprendre les images. Pour la g\u00e9n\u00e9ration, elle est g\u00e9n\u00e9ralement bas\u00e9e sur des mod\u00e8les de diffusion, et certaines sont bas\u00e9es sur des m\u00e9thodes autor\u00e9gressives. Certaines approches tentent d'utiliser un seul transformateur pour unifier les t\u00e2ches de compr\u00e9hension et de g\u00e9n\u00e9ration multimodales, qui utilise g\u00e9n\u00e9ralement un seul codeur visuel pour traiter les entr\u00e9es des deux t\u00e2ches.<\/p>\n\n\n\n<p>Toutefois, les repr\u00e9sentations requises pour les t\u00e2ches de compr\u00e9hension et de g\u00e9n\u00e9ration multimodales sont diff\u00e9rentes. Dans la t\u00e2che de compr\u00e9hension multimodale, l'encodeur visuel vise \u00e0 extraire des informations s\u00e9mantiques de haut niveau (par exemple, des cat\u00e9gories d'objets ou des attributs visuels), et la sortie implique non seulement l'extraction d'informations de l'image, mais aussi un raisonnement s\u00e9mantique complexe, l'encodeur se concentrant principalement sur des repr\u00e9sentations s\u00e9mantiques de haute dimension. La t\u00e2che de g\u00e9n\u00e9ration concerne principalement la g\u00e9n\u00e9ration de d\u00e9tails locaux et le maintien de la coh\u00e9rence globale de l'image, ce qui n\u00e9cessite des repr\u00e9sentations cod\u00e9es \u00e0 faible dimension des structures spatiales et des d\u00e9tails de la texture. L'unification des repr\u00e9sentations des deux t\u00e2ches dans le m\u00eame espace peut entra\u00eener des conflits.<\/p>\n\n\n\n<p>Janus contient deux voies de codage visuel ind\u00e9pendantes pour la compr\u00e9hension multimodale et la g\u00e9n\u00e9ration, et pr\u00e9sente deux avantages : 1) il att\u00e9nue les conflits d\u00e9coulant des diff\u00e9rentes exigences de granularit\u00e9 de la compr\u00e9hension et de la g\u00e9n\u00e9ration multimodales, et 2) il est flexible et \u00e9volutif, d\u00e9coupl\u00e9 de sorte que les t\u00e2ches de compr\u00e9hension et de g\u00e9n\u00e9ration peuvent \u00eatre cod\u00e9es \u00e0 l'aide de techniques de codage de pointe sp\u00e9cifiques \u00e0 leurs domaines, et \u00e0 l'avenir, peuvent \u00eatre aliment\u00e9es par des nuages de points, des signaux EEG ou des donn\u00e9es audio, et trait\u00e9es \u00e0 l'aide d'un transformateur unifi\u00e9.<\/p>\n\n\n\n<figure class=\"wp-block-image\"><img decoding=\"async\" src=\"https:\/\/rmy9ct2fln.feishu.cn\/space\/api\/box\/stream\/download\/asynccode\/?code=OTE3ZjkyNWQ5MmUwNDQzM2VjN2VlNWYwZjAxYTVmZGRfMXpJMWVObDBKOHYxTVJqeEw2S0pHT2hGU3RuVHdnWVdfVG9rZW46UDQyQ2Jrb0Myb1h0bjR4TFBrV2NRS29GbkRmXzE3MzgyNDIwMzc6MTczODI0NTYzN19WNA\" alt=\"\"\/><\/figure>\n\n\n\n<p>Pour la compr\u00e9hension du texte, celui-ci est converti en identifiants discrets \u00e0 l'aide du tokenizer int\u00e9gr\u00e9 \u00e0 LLM ;<\/p>\n\n\n\n<p>Pour la compr\u00e9hension multimodale, les caract\u00e9ristiques s\u00e9mantiques de haute dimension dans les images sont extraites en utilisant les encodeurs SigLIP (note de l'auteur : Cosmos utilise \u00e9galement les encodeurs SigLIP dans la section Guardrails), et les caract\u00e9ristiques extraites sont mapp\u00e9es dans l'espace de caract\u00e9ristiques de texte de LLM en utilisant Adaptor (MLP \u00e0 2 couches) ;<\/p>\n\n\n\n<p>Le c\u00f4t\u00e9 long a \u00e9t\u00e9 ajust\u00e9 \u00e0 384 pixels et le c\u00f4t\u00e9 court a \u00e9t\u00e9 rempli \u00e0 384 pixels en utilisant RGB(127, 127, 127) ;<\/p>\n\n\n\n<p>Pour la g\u00e9n\u00e9ration visuelle, l'image a \u00e9t\u00e9 convertie en identifiants discrets \u00e0 l'aide du tokenizer VQ, et chaque identifiant a \u00e9t\u00e9 mis en correspondance avec l'espace de caract\u00e9ristiques textuelles du LLM \u00e0 l'aide de l'adaptateur (MLP \u00e0 2 couches) ;<\/p>\n\n\n\n<p>Les bords courts ont \u00e9t\u00e9 redimensionn\u00e9s \u00e0 384 pixels et les bords longs ont \u00e9t\u00e9 recadr\u00e9s \u00e0 384 pixels ;<\/p>\n\n\n\n<p>L'entra\u00eenement global a \u00e9t\u00e9 r\u00e9alis\u00e9 \u00e0 l'aide de 16 n\u0153uds, chacun contenant 8 GPU Nvidia A100 ;<\/p>\n\n\n\n<p>Pour les t\u00e2ches de g\u00e9n\u00e9ration visuelle et de compr\u00e9hension multimodale, les s\u00e9quences de caract\u00e9ristiques d'image et de texte sont li\u00e9es ensemble en tant qu'entr\u00e9e du LLM (DeepSeek-LLM 1.3B est utilis\u00e9 dans le texte) ;<\/p>\n\n\n\n<blockquote class=\"wp-block-quote is-layout-flow wp-block-quote-is-layout-flow\">\n<p>La t\u00eate de pr\u00e9diction int\u00e9gr\u00e9e du LLM est utilis\u00e9e pour les pr\u00e9dictions de texte dans les t\u00e2ches de compr\u00e9hension de texte pur et de compr\u00e9hension multimodale, tandis qu'une t\u00eate de pr\u00e9diction initialis\u00e9e de mani\u00e8re al\u00e9atoire est utilis\u00e9e pour les pr\u00e9dictions d'images dans la t\u00e2che de g\u00e9n\u00e9ration visuelle. L'ensemble du mod\u00e8le adh\u00e8re \u00e0 un cadre autor\u00e9gressif sans qu'il soit n\u00e9cessaire d'utiliser des masques d'attention sp\u00e9cialement con\u00e7us.<\/p>\n<\/blockquote>\n\n\n\n<h2 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Janus_training_is_divided_into_3_phases\"><\/span><a href=\"https:\/\/huggingface.co\/deepseek-ai\/Janus-Pro-7B\" target=\"_blank\" rel=\"noreferrer noopener nofollow\">Formation Janus<\/a> est divis\u00e9 en trois phases :<span class=\"ez-toc-section-end\"><\/span><\/h2>\n\n\n\n<h3 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Phase_1\"><\/span>Phase 1<span class=\"ez-toc-section-end\"><\/span><\/h3>\n\n\n\n<p><strong>Adaptateur de train et t\u00eate d'image<\/strong> cr\u00e9er des connexions entre les \u00e9l\u00e9ments linguistiques et visuels dans l'espace d'int\u00e9gration, ce qui permet au LLM de comprendre les entit\u00e9s dans l'image et d'avoir des capacit\u00e9s initiales de g\u00e9n\u00e9ration visuelle ;<\/p>\n\n\n\n<p>Pour la compr\u00e9hension multimodale, utilisez 1,25 million de donn\u00e9es de l\u00e9gendes appari\u00e9es image-texte de SHareGPT4V dans le format :  ;<\/p>\n\n\n\n<p>Pour la g\u00e9n\u00e9ration visuelle, en utilisant 1,2 million d'\u00e9chantillons d'ImageNet1k dans le format :  ;<\/p>\n\n\n\n<h3 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Phase_2\"><\/span>Phase 2<span class=\"ez-toc-section-end\"><\/span><\/h3>\n\n\n\n<p><strong>Pr\u00e9formation unifi\u00e9e<\/strong>Cette phase consiste en l'utilisation d'un corpus multimodal pour un pr\u00e9-entra\u00eenement unifi\u00e9 afin d'apprendre la compr\u00e9hension et la g\u00e9n\u00e9ration multimodales. Des donn\u00e9es textuelles, des donn\u00e9es de compr\u00e9hension multimodale et des donn\u00e9es de g\u00e9n\u00e9ration visuelle sont utilis\u00e9es dans cette phase. Entra\u00eenement simple \u00e0 la g\u00e9n\u00e9ration visuelle \u00e0 l'aide d'ImageNet-1k, suivi de l'utilisation de donn\u00e9es g\u00e9n\u00e9riques texte-image pour am\u00e9liorer la g\u00e9n\u00e9ration visuelle dans le domaine ouvert du mod\u00e8le ;<\/p>\n\n\n\n<p>Donn\u00e9es textuelles : Corpus pr\u00e9-entra\u00een\u00e9 DeepSeek-LLM ;<\/p>\n\n\n\n<p>Donn\u00e9es image-texte entrelac\u00e9es : Ensembles de donn\u00e9es WikiHow et WIT ;<\/p>\n\n\n\n<p>Donn\u00e9es relatives aux l\u00e9gendes des images : Images provenant de sources multiples, dont certaines ont \u00e9t\u00e9 l\u00e9gend\u00e9es \u00e0 l'aide de mod\u00e8les multimodaux libres, avec des donn\u00e9es format\u00e9es sous forme de paires de questions-r\u00e9ponses, par exemple D\u00e9crivez l'image en d\u00e9tail.<caption> ;<\/p>\n\n\n\n<p>Donn\u00e9es tabulaires et graphiques : donn\u00e9es tabulaires et graphiques correspondantes provenant de DeepSeek-VL dans le format  ;<\/p>\n\n\n\n<p>Donn\u00e9es g\u00e9n\u00e9r\u00e9es visuellement : paires d'images et de l\u00e9gendes provenant de plusieurs ensembles de donn\u00e9es et 2 millions de donn\u00e9es internes ;<\/p>\n\n\n\n<p>Pendant la formation, seule la premi\u00e8re phrase de la l\u00e9gende est utilis\u00e9e de mani\u00e8re al\u00e9atoire avec une probabilit\u00e9 de 25% ;<\/p>\n\n\n\n<p>Les \u00e9chantillons d'ImageNet n'apparaissent que dans les 120 000 premi\u00e8res \u00e9tapes de formation, les images d'autres ensembles de donn\u00e9es apparaissant dans les 60 000 \u00e9tapes suivantes ;<\/p>\n\n\n\n<h3 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Phase_3\"><\/span>Phase 3<span class=\"ez-toc-section-end\"><\/span><\/h3>\n\n\n\n<p><strong>Mise au point supervis\u00e9e<\/strong>o\u00f9 les mod\u00e8les pr\u00e9-entra\u00een\u00e9s sont affin\u00e9s \u00e0 l'aide de donn\u00e9es d'affinement des instructions afin d'am\u00e9liorer leur capacit\u00e9 \u00e0 suivre des instructions et \u00e0 dialoguer. R\u00e9glage fin de tous les param\u00e8tres \u00e0 l'exception de l'encodeur de g\u00e9n\u00e9ration. Masquer les indices du syst\u00e8me et de l'utilisateur lors de la supervision des r\u00e9ponses. Pour s'assurer que Janus ma\u00eetrise \u00e0 la fois la compr\u00e9hension et la g\u00e9n\u00e9ration multimodales, les mod\u00e8les ne sont pas affin\u00e9s s\u00e9par\u00e9ment pour des t\u00e2ches sp\u00e9cifiques. Au lieu de cela, nous utilisons un m\u00e9lange de donn\u00e9es de dialogue textuel, de donn\u00e9es de compr\u00e9hension multimodale et de donn\u00e9es de g\u00e9n\u00e9ration visuelle pour assurer la polyvalence dans une vari\u00e9t\u00e9 de sc\u00e9narios ;<\/p>\n\n\n\n<p>Compr\u00e9hension de texte : utilisation de donn\u00e9es provenant de sources sp\u00e9cifiques ;<\/p>\n\n\n\n<p>Compr\u00e9hension multimodale : utilisation de donn\u00e9es provenant de sources multiples pour l'ajustement de l'enseignement ;<\/p>\n\n\n\n<p>G\u00e9n\u00e9ration visuelle : utilisation d'un sous-ensemble de paires image-texte provenant de certains des ensembles de donn\u00e9es de la phase II ainsi que de 4 millions de donn\u00e9es internes ;<\/p>\n\n\n\n<p>Le format des donn\u00e9es est le suivant : Utilisateur: \\n Assistant :  ;<\/p>\n\n\n\n<figure class=\"wp-block-image\"><img decoding=\"async\" src=\"https:\/\/rmy9ct2fln.feishu.cn\/space\/api\/box\/stream\/download\/asynccode\/?code=M2I3MWQ5MjQyNTM5NjIyZTkyMjdlODgwMDg5NzIwYzJfSGVTUnVzb0I3bEREQXBkMEJGN0lqT0JBaEVUWEQwS05fVG9rZW46Vm9OMWJzYnNsbzRGR1R4YlJrNWNad1psblhjXzE3MzgyNDIwMzc6MTczODI0NTYzN19WNA\" alt=\"\"\/><\/figure>\n\n\n\n<h3 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Training_Objectives\"><\/span>Objectifs de la formation<span class=\"ez-toc-section-end\"><\/span><\/h3>\n\n\n\n<p>Janus est un mod\u00e8le autor\u00e9gressif entra\u00een\u00e9 \u00e0 l'aide d'une fonction de perte d'entropie crois\u00e9e. Pour les t\u00e2ches de compr\u00e9hension de texte simple et de compr\u00e9hension multimodale, la perte est calcul\u00e9e sur la s\u00e9quence de texte. Pour les t\u00e2ches de g\u00e9n\u00e9ration visuelle, la perte est calcul\u00e9e uniquement sur la s\u00e9quence d'images. Pour que la conception reste simple, aucune pond\u00e9ration de perte diff\u00e9rente n'est attribu\u00e9e aux diff\u00e9rentes t\u00e2ches.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Reasoning\"><\/span>Raisonnement<span class=\"ez-toc-section-end\"><\/span><\/h3>\n\n\n\n<p>En utilisant la m\u00e9thode de pr\u00e9diction de l'\u00e9l\u00e9ment lexical suivant, pour la compr\u00e9hension de texte simple et la compr\u00e9hension multimodale, les \u00e9l\u00e9ments lexicaux sont \u00e9chantillonn\u00e9s s\u00e9quentiellement \u00e0 partir de la distribution de pr\u00e9diction. Pour la g\u00e9n\u00e9ration d'images, un bootstrap sans classification est utilis\u00e9.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Possible_extensions\"><\/span>Extensions possibles<span class=\"ez-toc-section-end\"><\/span><\/h3>\n\n\n\n<p>Pour la compr\u00e9hension multimodale, 1) un codeur visuel plus puissant pourrait \u00eatre choisi, et 2) des techniques dynamiques \u00e0 haute r\u00e9solution pourraient \u00eatre utilis\u00e9es ;<\/p>\n\n\n\n<p>Pour la g\u00e9n\u00e9ration de vision, 1) on pourrait choisir des codeurs plus fins, 2) utiliser des fonctions de perte sp\u00e9cialement con\u00e7ues pour la g\u00e9n\u00e9ration de vision, et 3) combiner l'attention causale et les m\u00e9thodes parall\u00e8les ;<\/p>\n\n\n\n<p>Plus de modalit\u00e9s, avec la possibilit\u00e9 d'int\u00e9grer des nuages de points 3D, des haptiques, des EEG et d'autres entr\u00e9es pour les modalit\u00e9s de perte ;<\/p>\n\n\n\n<h2 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Janus-Pro_Upgrade\"><\/span><a href=\"https:\/\/huggingface.co\/deepseek-ai\/Janus-Pro-7B\" target=\"_blank\" rel=\"noreferrer noopener nofollow\">Janus-Pro Mise \u00e0 niveau<\/a><span class=\"ez-toc-section-end\"><\/span><\/h2>\n\n\n\n<p>Avec des donn\u00e9es de formation limit\u00e9es et une capacit\u00e9 de mod\u00e8le relativement faible (1B), Janus pr\u00e9sente certaines lacunes, telles qu'une mauvaise repr\u00e9sentation de la g\u00e9n\u00e9ration d'images avec des indices courts et une qualit\u00e9 incoh\u00e9rente de la g\u00e9n\u00e9ration de texte \u00e0 partir d'images :<\/p>\n\n\n\n<figure class=\"wp-block-image\"><img decoding=\"async\" src=\"https:\/\/rmy9ct2fln.feishu.cn\/space\/api\/box\/stream\/download\/asynccode\/?code=NDY0ZWM0NTJiOTNlYTE4MWI4NmMwNGE4Mjc3NmYyMDJfc1FEMHVOMHo1OUM0ZVhoakJtU1lZQXdZNTd4NVFXRzhfVG9rZW46RjJrTGI3VVlqb0IxS3N4aHVVN2NxUWxJbnZkXzE3MzgyNDIwMzc6MTczODI0NTYzN19WNA\" alt=\"\"\/><\/figure>\n\n\n\n<h3 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Main_Improvements\"><\/span>Principales am\u00e9liorations<span class=\"ez-toc-section-end\"><\/span><\/h3>\n\n\n\n<h4 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Training_Strategy\"><\/span>Strat\u00e9gie de formation<span class=\"ez-toc-section-end\"><\/span><\/h4>\n\n\n\n<p>\u00c9tape 1 : Augmenter le nombre d'\u00e9tapes de formation et effectuer une formation compl\u00e8te sur ImageNet ;<\/p>\n\n\n\n<p>\u00c9tape 2 : ne plus utiliser ImageNet, mais utiliser directement des donn\u00e9es texte-image normales pour l'apprentissage ;<\/p>\n\n\n\n<p>\u00c9tape 3 : Modifier les ratios des ensembles de donn\u00e9es dans le cadre du processus de r\u00e9glage fin en modifiant le ratio des donn\u00e9es multimodales, des donn\u00e9es en texte brut et des donn\u00e9es texte-image de 7:3:10 \u00e0 5:1:4 ;<\/p>\n\n\n\n<h4 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Data_Scale\"><\/span>\u00c9chelle de donn\u00e9es<span class=\"ez-toc-section-end\"><\/span><\/h4>\n\n\n\n<p>Compr\u00e9hension multimodale<\/p>\n\n\n\n<p>\u00c9tape 2 : ajout de 90 millions d'\u00e9chantillons, y compris YFCC pour le sous-titrage des images et Doc-matrix pour la compr\u00e9hension des tableaux et des graphiques ;<\/p>\n\n\n\n<p>\u00c9tape 3 : Ajout de DeepSeek-VL2 \u00e0 des ensembles de donn\u00e9es suppl\u00e9mentaires tels que la compr\u00e9hension de MEME ;<\/p>\n\n\n\n<p>G\u00e9n\u00e9ration visuelle : les donn\u00e9es r\u00e9elles peuvent \u00eatre de mauvaise qualit\u00e9, ce qui entra\u00eene une g\u00e9n\u00e9ration texte-image instable et un r\u00e9sultat esth\u00e9tique m\u00e9diocre. Janus-Pro utilise 72 millions d'\u00e9chantillons de donn\u00e9es esth\u00e9tiques synth\u00e9tiques, avec une phase de pr\u00e9-entra\u00eenement uniforme (\u00e9tape 2) d'un rapport de 1:1 entre les donn\u00e9es r\u00e9elles et les donn\u00e9es synth\u00e9tiques ;<\/p>\n\n\n\n<h4 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Model_Scale\"><\/span>Mod\u00e8le r\u00e9duit<span class=\"ez-toc-section-end\"><\/span><\/h4>\n\n\n\n<p>Mettre les param\u00e8tres du mod\u00e8le \u00e0 l'\u00e9chelle de 7 milliards de param\u00e8tres ;<\/p>\n\n\n\n<h3 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Experimental_details\"><\/span>D\u00e9tails exp\u00e9rimentaux<span class=\"ez-toc-section-end\"><\/span><\/h3>\n\n\n\n<p>Par rapport \u00e0 Janus, les d\u00e9tails des exp\u00e9riences Janus-Pro sont fondamentalement les m\u00eames. En revanche, le mod\u00e8le \u00e0 param\u00e8tres plus larges utilise davantage de n\u0153uds de cluster (16 \u00e0 32).<\/p>\n\n\n\n<figure class=\"wp-block-image\"><img decoding=\"async\" src=\"https:\/\/rmy9ct2fln.feishu.cn\/space\/api\/box\/stream\/download\/asynccode\/?code=NDM1YTM1ZDliNDUwYzAzNzg4MTNiNjUzYWZlZjVhZjhfZGI5ZWloREhYV29OZUxiaEVFc0dhN1dMTDhGdG5ZSnNfVG9rZW46STA0amJtbVlhb0NySk94NkRKNmNqNDVybmdiXzE3MzgyNDIwMzc6MTczODI0NTYzN19WNA\" alt=\"\"\/><\/figure>\n\n\n\n<p>Janus-Pro hyperparam\u00e8tres de formation<\/p>\n\n\n\n<h3 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Insufficient\"><\/span>Insuffisant<span class=\"ez-toc-section-end\"><\/span><\/h3>\n\n\n\n<p>Pour la compr\u00e9hension multimodale, la r\u00e9solution d'entr\u00e9e est limit\u00e9e \u00e0 384\u00d7384, ce qui affecte les performances des t\u00e2ches visuelles fines. Pour la g\u00e9n\u00e9ration de texte \u00e0 partir d'images, la faible r\u00e9solution entra\u00eene un manque de d\u00e9tails dans les r\u00e9sultats g\u00e9n\u00e9r\u00e9s.<\/p>","protected":false},"excerpt":{"rendered":"<p>Message \u00e0 retenir : Janus est un mod\u00e8le simple, unifi\u00e9 et extensible de compr\u00e9hension et de g\u00e9n\u00e9ration multimodales qui dissocie la compr\u00e9hension multimodale et le codage visuel g\u00e9n\u00e9r\u00e9, att\u00e9nuant ainsi les conflits potentiels entre les deux t\u00e2ches. Il peut \u00eatre \u00e9tendu pour int\u00e9grer d'autres modalit\u00e9s d'entr\u00e9e \u00e0 l'avenir. Janus-Pro s'appuie sur cette base en optimisant la strat\u00e9gie d'entra\u00eenement (notamment en augmentant...<\/p>","protected":false},"author":2,"featured_media":684,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_kadence_starter_templates_imported_post":false,"_kad_post_transparent":"","_kad_post_title":"","_kad_post_layout":"","_kad_post_sidebar_id":"","_kad_post_content_style":"","_kad_post_vertical_padding":"","_kad_post_feature":"","_kad_post_feature_position":"","_kad_post_header":false,"_kad_post_footer":false,"footnotes":""},"categories":[1],"tags":[],"class_list":["post-746","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-uncategorized"],"_links":{"self":[{"href":"https:\/\/janusai.pro\/fr\/wp-json\/wp\/v2\/posts\/746","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/janusai.pro\/fr\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/janusai.pro\/fr\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/janusai.pro\/fr\/wp-json\/wp\/v2\/users\/2"}],"replies":[{"embeddable":true,"href":"https:\/\/janusai.pro\/fr\/wp-json\/wp\/v2\/comments?post=746"}],"version-history":[{"count":1,"href":"https:\/\/janusai.pro\/fr\/wp-json\/wp\/v2\/posts\/746\/revisions"}],"predecessor-version":[{"id":747,"href":"https:\/\/janusai.pro\/fr\/wp-json\/wp\/v2\/posts\/746\/revisions\/747"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/janusai.pro\/fr\/wp-json\/wp\/v2\/media\/684"}],"wp:attachment":[{"href":"https:\/\/janusai.pro\/fr\/wp-json\/wp\/v2\/media?parent=746"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/janusai.pro\/fr\/wp-json\/wp\/v2\/categories?post=746"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/janusai.pro\/fr\/wp-json\/wp\/v2\/tags?post=746"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}