{"id":857,"date":"2025-02-04T16:45:13","date_gmt":"2025-02-04T16:45:13","guid":{"rendered":"https:\/\/janusai.pro\/?p=857"},"modified":"2025-02-04T16:45:15","modified_gmt":"2025-02-04T16:45:15","slug":"in-depth-analysis-what-innovations-does-deepseeks-newly-released-janus-pro-have","status":"publish","type":"post","link":"https:\/\/janusai.pro\/it\/in-depth-analysis-what-innovations-does-deepseeks-newly-released-janus-pro-have\/","title":{"rendered":"Analisi approfondita: Quali innovazioni presenta il nuovo Janus-Pro di DeepSeek?"},"content":{"rendered":"<div style=\"margin-top: 0px; margin-bottom: 0px;\" class=\"sharethis-inline-share-buttons\" ><\/div>\n<p>DeepSeek ha aggiornato il suo sito web.<\/p>\n\n\n\n<p>Nelle prime ore della notte di Capodanno, DeepSeek ha improvvisamente annunciato su GitHub che lo spazio del progetto Janus aveva aperto la fonte del modello Janus-Pro e del rapporto tecnico.<\/p>\n\n\n\n<p>Innanzitutto, sottolineiamo alcuni punti chiave:<\/p>\n\n\n\n<ol start=\"1\" class=\"wp-block-list\">\n<li>Il <a href=\"https:\/\/huggingface.co\/deepseek-ai\/Janus-Pro-7B\" target=\"_blank\" rel=\"noreferrer noopener nofollow\">Modello Janus-Pro<\/a> Questa volta \u00e8 stato rilasciato un modello multimodale che<strong> \u00e8 in grado di eseguire simultaneamente compiti di comprensione multimodale e di generazione di immagini. Ha un totale di due versioni di parametri, <a href=\"https:\/\/huggingface.co\/deepseek-ai\/Janus-Pro-7B\" target=\"_blank\" rel=\"noreferrer noopener nofollow\">Janus-Pro-1B e Janus-Pro-7B<\/a>.<\/strong><\/li>\n\n\n\n<li>L'innovazione principale dell'Janus-Pro \u00e8 quella di disaccoppiare<strong> comprensione e generazione multimodale, due compiti diversi. Ci\u00f2 consente di completare in modo efficiente questi due compiti nello stesso modello.<\/strong>.<\/li>\n\n\n\n<li>Janus-Pro \u00e8 coerente con l'architettura del modello Janus rilasciato da DeepSeek lo scorso ottobre, ma all'epoca Janus non aveva un volume elevato. Il dottor Charles, esperto di algoritmi nel campo della visione, ci ha detto che il precedente Janus era \"medio\" e \"non buono come il modello linguistico di DeepSeek\".<\/li>\n<\/ol>\n\n\n\n<figure class=\"wp-block-image\"><img loading=\"lazy\" decoding=\"async\" width=\"1870\" height=\"1804\" src=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/720ad345-4902-46e0-9185-bc4f887ed302.png\" alt=\"\" class=\"wp-image-859\" srcset=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/720ad345-4902-46e0-9185-bc4f887ed302.png 1870w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/720ad345-4902-46e0-9185-bc4f887ed302-300x289.png 300w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/720ad345-4902-46e0-9185-bc4f887ed302-1024x988.png 1024w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/720ad345-4902-46e0-9185-bc4f887ed302-768x741.png 768w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/720ad345-4902-46e0-9185-bc4f887ed302-1536x1482.png 1536w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/720ad345-4902-46e0-9185-bc4f887ed302-12x12.png 12w\" sizes=\"auto, (max-width: 1870px) 100vw, 1870px\" \/><\/figure>\n\n\n\n<div id=\"ez-toc-container\" class=\"ez-toc-v2_0_82_2 counter-hierarchy ez-toc-counter ez-toc-grey ez-toc-container-direction\">\n<div class=\"ez-toc-title-container\">\n<p class=\"ez-toc-title\" style=\"cursor:inherit\">Indice dei contenuti<\/p>\n<span class=\"ez-toc-title-toggle\"><a href=\"#\" class=\"ez-toc-pull-right ez-toc-btn ez-toc-btn-xs ez-toc-btn-default ez-toc-toggle\" aria-label=\"Allinea la tabella dei contenuti\"><span class=\"ez-toc-js-icon-con\"><span class=\"\"><span class=\"eztoc-hide\" style=\"display:none;\">Toggle<\/span><span class=\"ez-toc-icon-toggle-span\"><svg style=\"fill: #999;color:#999\" xmlns=\"http:\/\/www.w3.org\/2000\/svg\" class=\"list-377408\" width=\"20px\" height=\"20px\" viewbox=\"0 0 24 24\" fill=\"none\"><path d=\"M6 6H4v2h2V6zm14 0H8v2h12V6zM4 11h2v2H4v-2zm16 0H8v2h12v-2zM4 16h2v2H4v-2zm16 0H8v2h12v-2z\" fill=\"currentColor\"><\/path><\/svg><svg style=\"fill: #999;color:#999\" class=\"arrow-unsorted-368013\" xmlns=\"http:\/\/www.w3.org\/2000\/svg\" width=\"10px\" height=\"10px\" viewbox=\"0 0 24 24\" version=\"1.2\" baseprofile=\"tiny\"><path d=\"M18.2 9.3l-6.2-6.3-6.2 6.3c-.2.2-.3.4-.3.7s.1.5.3.7c.2.2.4.3.7.3h11c.3 0 .5-.1.7-.3.2-.2.3-.5.3-.7s-.1-.5-.3-.7zM5.8 14.7l6.2 6.3 6.2-6.3c.2-.2.3-.5.3-.7s-.1-.5-.3-.7c-.2-.2-.4-.3-.7-.3h-11c-.3 0-.5.1-.7.3-.2.2-.3.5-.3.7s.1.5.3.7z\"\/><\/svg><\/span><\/span><\/span><\/a><\/span><\/div>\n<nav><ul class='ez-toc-list ez-toc-list-level-1' ><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-1\" href=\"https:\/\/janusai.pro\/it\/in-depth-analysis-what-innovations-does-deepseeks-newly-released-janus-pro-have\/#It_is_intended_to_solve_the_industrys_difficult_problem_balancing_multimodal_understanding_and_image_generation\" >L'obiettivo \u00e8 quello di risolvere il difficile problema del settore: bilanciare la comprensione multimodale e la generazione di immagini.<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-2\" href=\"https:\/\/janusai.pro\/it\/in-depth-analysis-what-innovations-does-deepseeks-newly-released-janus-pro-have\/#Januss_decoupled_architecture_and_Janus-Pros_optimized_training_strategy\" >L'architettura disaccoppiata di Janus e la strategia di formazione ottimizzata di Janus-Pro<\/a><ul class='ez-toc-list-level-3' ><li class='ez-toc-heading-level-3'><a class=\"ez-toc-link ez-toc-heading-3\" href=\"https:\/\/janusai.pro\/it\/in-depth-analysis-what-innovations-does-deepseeks-newly-released-janus-pro-have\/#First_lets_look_at_the_parameters\" >Per prima cosa, esaminiamo i parametri.<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-3'><a class=\"ez-toc-link ez-toc-heading-4\" href=\"https:\/\/janusai.pro\/it\/in-depth-analysis-what-innovations-does-deepseeks-newly-released-janus-pro-have\/#There_is_also_the_training_strategy\" >C'\u00e8 anche la strategia di formazione.<\/a><ul class='ez-toc-list-level-4' ><li class='ez-toc-heading-level-4'><a class=\"ez-toc-link ez-toc-heading-5\" href=\"https:\/\/janusai.pro\/it\/in-depth-analysis-what-innovations-does-deepseeks-newly-released-janus-pro-have\/#Stage_I_%E2%80%93_Longer_training_time\" >Fase I - Tempo di allenamento pi\u00f9 lungo<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-4'><a class=\"ez-toc-link ez-toc-heading-6\" href=\"https:\/\/janusai.pro\/it\/in-depth-analysis-what-innovations-does-deepseeks-newly-released-janus-pro-have\/#Stage_II_%E2%80%93_Removing_ImageNet_data_and_adding_multi-modal_data\" >Fase II - Rimozione dei dati ImageNet e aggiunta di dati multimodali<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-4'><a class=\"ez-toc-link ez-toc-heading-7\" href=\"https:\/\/janusai.pro\/it\/in-depth-analysis-what-innovations-does-deepseeks-newly-released-janus-pro-have\/#Stage_III_%E2%80%93_Optimizing_the_data_ratio\" >Fase III - Ottimizzazione del rapporto dati<\/a><\/li><\/ul><\/li><li class='ez-toc-page-1 ez-toc-heading-level-3'><a class=\"ez-toc-link ez-toc-heading-8\" href=\"https:\/\/janusai.pro\/it\/in-depth-analysis-what-innovations-does-deepseeks-newly-released-janus-pro-have\/#Lets_look_at_the_training_data\" >Esaminiamo i dati di allenamento.<\/a><ul class='ez-toc-list-level-4' ><li class='ez-toc-heading-level-4'><a class=\"ez-toc-link ez-toc-heading-9\" href=\"https:\/\/janusai.pro\/it\/in-depth-analysis-what-innovations-does-deepseeks-newly-released-janus-pro-have\/#Expansion_of_multimodal_understanding_data\" >Espansione dei dati di comprensione multimodale:<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-4'><a class=\"ez-toc-link ez-toc-heading-10\" href=\"https:\/\/janusai.pro\/it\/in-depth-analysis-what-innovations-does-deepseeks-newly-released-janus-pro-have\/#Expansion_of_visual_generation_data\" >Espansione dei dati di generazione visiva:<\/a><\/li><\/ul><\/li><\/ul><\/li><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-11\" href=\"https:\/\/janusai.pro\/it\/in-depth-analysis-what-innovations-does-deepseeks-newly-released-janus-pro-have\/#The_continuation_of_an_efficiency_revolution\" >La continuazione di una rivoluzione dell'efficienza?<\/a><\/li><\/ul><\/nav><\/div>\n<h2 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"It_is_intended_to_solve_the_industrys_difficult_problem_balancing_multimodal_understanding_and_image_generation\"><\/span><strong>L'obiettivo \u00e8 quello di risolvere il difficile problema del settore: bilanciare la comprensione multimodale e la generazione di immagini.<\/strong><span class=\"ez-toc-section-end\"><\/span><\/h2>\n\n\n\n<p>Secondo l'introduzione ufficiale di DeepSeek, <a href=\"https:\/\/huggingface.co\/deepseek-ai\/Janus-Pro-7B\" target=\"_blank\" rel=\"noreferrer noopener nofollow\">Janus-Pro <\/a>non solo pu\u00f2 capire le immagini, estrarre e comprendere il testo nelle immagini, ma anche generare immagini allo stesso tempo.<\/p>\n\n\n\n<p>La relazione tecnica indica che, rispetto ad altri modelli dello stesso tipo e ordine di grandezza, i punteggi dell'Janus-Pro-7B sui set di test GenEval e DPG-Bench<strong> superano quelle di altri modelli come SD3-Medium e DALL-E 3.<\/strong><\/p>\n\n\n\n<figure class=\"wp-block-image\"><img loading=\"lazy\" decoding=\"async\" width=\"1080\" height=\"1067\" src=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/a30e3dd3-b95c-4745-a4f7-8c5ace36af17.png\" alt=\"\" class=\"wp-image-862\" srcset=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/a30e3dd3-b95c-4745-a4f7-8c5ace36af17.png 1080w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/a30e3dd3-b95c-4745-a4f7-8c5ace36af17-300x296.png 300w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/a30e3dd3-b95c-4745-a4f7-8c5ace36af17-1024x1012.png 1024w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/a30e3dd3-b95c-4745-a4f7-8c5ace36af17-768x759.png 768w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/a30e3dd3-b95c-4745-a4f7-8c5ace36af17-12x12.png 12w\" sizes=\"auto, (max-width: 1080px) 100vw, 1080px\" \/><\/figure>\n\n\n\n<p>Il funzionario fornisce anche degli esempi \ud83d\udc47:<\/p>\n\n\n\n<figure class=\"wp-block-image\"><img loading=\"lazy\" decoding=\"async\" width=\"1080\" height=\"1295\" src=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/a063e5ec-bc07-4129-8ded-0ab90001bbfe.png\" alt=\"\" class=\"wp-image-866\" srcset=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/a063e5ec-bc07-4129-8ded-0ab90001bbfe.png 1080w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/a063e5ec-bc07-4129-8ded-0ab90001bbfe-250x300.png 250w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/a063e5ec-bc07-4129-8ded-0ab90001bbfe-854x1024.png 854w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/a063e5ec-bc07-4129-8ded-0ab90001bbfe-768x921.png 768w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/a063e5ec-bc07-4129-8ded-0ab90001bbfe-10x12.png 10w\" sizes=\"auto, (max-width: 1080px) 100vw, 1080px\" \/><\/figure>\n\n\n\n<p>Anche molti netizen su X stanno provando le nuove funzioni.<\/p>\n\n\n\n<figure class=\"wp-block-image\"><img loading=\"lazy\" decoding=\"async\" width=\"1080\" height=\"1429\" src=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/c5235f43-349a-47a2-ae9f-dc5491d88d61.png\" alt=\"\" class=\"wp-image-867\" srcset=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/c5235f43-349a-47a2-ae9f-dc5491d88d61.png 1080w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/c5235f43-349a-47a2-ae9f-dc5491d88d61-227x300.png 227w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/c5235f43-349a-47a2-ae9f-dc5491d88d61-774x1024.png 774w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/c5235f43-349a-47a2-ae9f-dc5491d88d61-768x1016.png 768w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/c5235f43-349a-47a2-ae9f-dc5491d88d61-9x12.png 9w\" sizes=\"auto, (max-width: 1080px) 100vw, 1080px\" \/><\/figure>\n\n\n\n<figure class=\"wp-block-image\"><img loading=\"lazy\" decoding=\"async\" width=\"1080\" height=\"1616\" src=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/61c76adf-1b00-4b38-8504-a47410160d3b.png\" alt=\"\" class=\"wp-image-869\" srcset=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/61c76adf-1b00-4b38-8504-a47410160d3b.png 1080w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/61c76adf-1b00-4b38-8504-a47410160d3b-200x300.png 200w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/61c76adf-1b00-4b38-8504-a47410160d3b-684x1024.png 684w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/61c76adf-1b00-4b38-8504-a47410160d3b-768x1149.png 768w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/61c76adf-1b00-4b38-8504-a47410160d3b-1027x1536.png 1027w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/61c76adf-1b00-4b38-8504-a47410160d3b-8x12.png 8w\" sizes=\"auto, (max-width: 1080px) 100vw, 1080px\" \/><\/figure>\n\n\n\n<p>Ma si verificano anche incidenti occasionali.<\/p>\n\n\n\n<p>Consultando i documenti tecnici su <a href=\"https:\/\/www.deepseek.com\/\" target=\"_blank\" rel=\"noreferrer noopener nofollow\">DeepSeek<\/a>Abbiamo scoperto che Janus Pro \u00e8 un'ottimizzazione basata su Janus, rilasciata tre mesi fa.<\/p>\n\n\n\n<p>L'innovazione principale di questa serie di modelli consiste nel<strong> disaccoppiare i compiti di comprensione visiva da quelli di generazione visiva, in modo da bilanciare gli effetti dei due compiti.<\/strong><\/p>\n\n\n\n<figure class=\"wp-block-image\"><img loading=\"lazy\" decoding=\"async\" width=\"1080\" height=\"538\" src=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/0fc71a9c-e23b-4ae9-976c-a4820124628e.png\" alt=\"\" class=\"wp-image-861\" srcset=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/0fc71a9c-e23b-4ae9-976c-a4820124628e.png 1080w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/0fc71a9c-e23b-4ae9-976c-a4820124628e-300x149.png 300w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/0fc71a9c-e23b-4ae9-976c-a4820124628e-1024x510.png 1024w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/0fc71a9c-e23b-4ae9-976c-a4820124628e-768x383.png 768w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/0fc71a9c-e23b-4ae9-976c-a4820124628e-18x9.png 18w\" sizes=\"auto, (max-width: 1080px) 100vw, 1080px\" \/><\/figure>\n\n\n\n<p>Non \u00e8 raro che un modello sia in grado di eseguire contemporaneamente la comprensione e la generazione multimodale. D-DiT e TokenFlow-XL in questo set di test hanno entrambi questa capacit\u00e0.<\/p>\n\n\n\n<p>Tuttavia, ci\u00f2 che caratterizza Giano \u00e8 che<strong> disaccoppiando l'elaborazione, un modello in grado di eseguire la comprensione e la generazione multimodale bilancia l'efficacia dei due compiti.<\/strong><\/p>\n\n\n\n<p><strong>Bilanciare l'efficacia dei due compiti \u00e8 un problema difficile nel settore.<\/strong> In precedenza si pensava di utilizzare lo stesso codificatore per implementare il pi\u00f9 possibile la comprensione e la generazione multimodale.<\/p>\n\n\n\n<p>I vantaggi di questo approccio sono un'architettura semplice, l'assenza di implementazioni ridondanti e l'allineamento con i modelli testuali (che utilizzano gli stessi metodi per la generazione e la comprensione del testo). Un'altra argomentazione \u00e8 che questa fusione di pi\u00f9 abilit\u00e0 pu\u00f2 portare a un certo grado di emergenzialit\u00e0.<\/p>\n\n\n\n<p>Tuttavia, in realt\u00e0, dopo aver fuso generazione e comprensione, i due compiti sono in conflitto: la comprensione delle immagini richiede che il modello astragga in alte dimensioni ed estragga la semantica centrale dell'immagine, che \u00e8 orientata verso il macroscopico. La generazione di immagini, invece, si concentra sull'espressione e la generazione di dettagli locali a livello di pixel.<\/p>\n\n\n\n<p>La prassi abituale del settore \u00e8 quella di dare priorit\u00e0 alle capacit\u00e0 di generazione delle immagini. Ci\u00f2 si traduce in modelli multimodali che<strong> possono generare immagini di qualit\u00e0 superiore, ma i risultati della comprensione delle immagini sono spesso mediocri.<\/strong><\/p>\n\n\n\n<h2 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Januss_decoupled_architecture_and_Janus-Pros_optimized_training_strategy\"><\/span><strong>L'architettura disaccoppiata di Janus e la strategia di formazione ottimizzata di Janus-Pro<\/strong><span class=\"ez-toc-section-end\"><\/span><\/h2>\n\n\n\n<p>L'architettura disaccoppiata di Janus permette al modello di bilanciare i compiti di comprensione e generazione in modo autonomo.<\/p>\n\n\n\n<p>Secondo i risultati del rapporto tecnico ufficiale, sia che si tratti di comprensione multimodale o di generazione di immagini, l'Janus-Pro-7B si comporta bene su pi\u00f9 set di test.<\/p>\n\n\n\n<figure class=\"wp-block-image\"><img loading=\"lazy\" decoding=\"async\" width=\"1080\" height=\"976\" src=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/f280e5d6-7150-40d3-bf81-7e5e5b780129.png\" alt=\"\" class=\"wp-image-863\" srcset=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/f280e5d6-7150-40d3-bf81-7e5e5b780129.png 1080w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/f280e5d6-7150-40d3-bf81-7e5e5b780129-300x271.png 300w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/f280e5d6-7150-40d3-bf81-7e5e5b780129-1024x925.png 1024w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/f280e5d6-7150-40d3-bf81-7e5e5b780129-768x694.png 768w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/f280e5d6-7150-40d3-bf81-7e5e5b780129-13x12.png 13w\" sizes=\"auto, (max-width: 1080px) 100vw, 1080px\" \/><\/figure>\n\n\n\n<p><strong>Per una comprensione multimodale,<\/strong> Janus-Pro-7B ha ottenuto il primo posto in quattro dei sette set di dati di valutazione e il secondo posto nei restanti tre, leggermente dietro al modello pi\u00f9 classificato.<\/p>\n\n\n\n<figure class=\"wp-block-image\"><img loading=\"lazy\" decoding=\"async\" width=\"1080\" height=\"1062\" src=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/782c767f-e8d3-4d5c-9e2d-638c102f7dff.png\" alt=\"\" class=\"wp-image-865\" srcset=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/782c767f-e8d3-4d5c-9e2d-638c102f7dff.png 1080w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/782c767f-e8d3-4d5c-9e2d-638c102f7dff-300x295.png 300w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/782c767f-e8d3-4d5c-9e2d-638c102f7dff-1024x1007.png 1024w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/782c767f-e8d3-4d5c-9e2d-638c102f7dff-768x755.png 768w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/782c767f-e8d3-4d5c-9e2d-638c102f7dff-12x12.png 12w\" sizes=\"auto, (max-width: 1080px) 100vw, 1080px\" \/><\/figure>\n\n\n\n<p><strong>Per la generazione di immagini,<\/strong> Janus-Pro-7B ha ottenuto il primo posto nel punteggio complessivo su entrambi i dataset di valutazione GenEval e DPG-Bench.<\/p>\n\n\n\n<p>Questo effetto multi-tasking \u00e8 dovuto principalmente all'utilizzo, nella serie Janus, di due codificatori visivi per compiti diversi:<\/p>\n\n\n\n<ol start=\"1\" class=\"wp-block-list\">\n<li><strong>Comprensione del codificatore:<\/strong> utilizzato per estrarre caratteristiche semantiche nelle immagini per compiti di comprensione delle immagini (come domande e risposte sulle immagini, classificazione visiva, ecc.)<\/li>\n\n\n\n<li><strong>Codificatore generativo:<\/strong> converte le immagini in una rappresentazione discreta (ad esempio, utilizzando un codificatore VQ) per compiti di generazione di testi da immagini.<\/li>\n<\/ol>\n\n\n\n<p>Con questa architettura,<strong> il modello \u00e8 in grado di ottimizzare in modo indipendente le prestazioni di ciascun codificatore, in modo che i compiti di comprensione e generazione multimodale possano ottenere ciascuno le migliori prestazioni.<\/strong><\/p>\n\n\n\n<figure class=\"wp-block-image\"><img loading=\"lazy\" decoding=\"async\" width=\"1080\" height=\"565\" src=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/81defdea-eadb-4fc7-8395-4c365c44d502.png\" alt=\"\" class=\"wp-image-860\" srcset=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/81defdea-eadb-4fc7-8395-4c365c44d502.png 1080w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/81defdea-eadb-4fc7-8395-4c365c44d502-300x157.png 300w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/81defdea-eadb-4fc7-8395-4c365c44d502-1024x536.png 1024w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/81defdea-eadb-4fc7-8395-4c365c44d502-768x402.png 768w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/81defdea-eadb-4fc7-8395-4c365c44d502-18x9.png 18w\" sizes=\"auto, (max-width: 1080px) 100vw, 1080px\" \/><\/figure>\n\n\n\n<p><strong>Questa architettura disaccoppiata \u00e8 comune a Janus-Pro e Janus. Quali sono state le iterazioni di Janus-Pro negli ultimi mesi?<\/strong><\/p>\n\n\n\n<p>Come si pu\u00f2 notare dai risultati del set di valutazione, l'attuale versione dell'Janus-Pro-1B ha un miglioramento di circa 10% a 20% nei punteggi dei diversi set di valutazione rispetto al precedente Janus. L'Janus-Pro-7B presenta il miglioramento pi\u00f9 elevato, pari a circa 45% rispetto a Janus dopo aver ampliato il numero di parametri.<\/p>\n\n\n\n<figure class=\"wp-block-image\"><img loading=\"lazy\" decoding=\"async\" width=\"1080\" height=\"185\" src=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/746d1d6f-9a07-4922-9b59-717614ef0738.png\" alt=\"\" class=\"wp-image-858\" srcset=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/746d1d6f-9a07-4922-9b59-717614ef0738.png 1080w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/746d1d6f-9a07-4922-9b59-717614ef0738-300x51.png 300w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/746d1d6f-9a07-4922-9b59-717614ef0738-1024x175.png 1024w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/746d1d6f-9a07-4922-9b59-717614ef0738-768x132.png 768w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/746d1d6f-9a07-4922-9b59-717614ef0738-18x3.png 18w\" sizes=\"auto, (max-width: 1080px) 100vw, 1080px\" \/><\/figure>\n\n\n\n<figure class=\"wp-block-image\"><img loading=\"lazy\" decoding=\"async\" width=\"1080\" height=\"430\" src=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/9361ef86-87ce-4f84-9cdd-71ef95a9f4b1.png\" alt=\"\" class=\"wp-image-864\" srcset=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/9361ef86-87ce-4f84-9cdd-71ef95a9f4b1.png 1080w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/9361ef86-87ce-4f84-9cdd-71ef95a9f4b1-300x119.png 300w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/9361ef86-87ce-4f84-9cdd-71ef95a9f4b1-1024x408.png 1024w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/9361ef86-87ce-4f84-9cdd-71ef95a9f4b1-768x306.png 768w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/9361ef86-87ce-4f84-9cdd-71ef95a9f4b1-18x7.png 18w\" sizes=\"auto, (max-width: 1080px) 100vw, 1080px\" \/><\/figure>\n\n\n\n<p>In termini di dettagli sull'addestramento, la relazione tecnica afferma che l'attuale versione di Janus-Pro, rispetto al precedente modello Janus, mantiene il design dell'architettura disaccoppiata di base, e in pi\u00f9 itera su<strong> dimensione dei parametri, strategia di addestramento e dati di addestramento.<\/strong><\/p>\n\n\n\n<h3 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"First_lets_look_at_the_parameters\"><\/span><strong>Per prima cosa, analizziamo i parametri<\/strong>.<span class=\"ez-toc-section-end\"><\/span><\/h3>\n\n\n\n<p>La prima versione di Janus aveva solo 1,3B parametri, mentre l'attuale versione di Pro include modelli con 1B e 7B parametri.<\/p>\n\n\n\n<p>Queste due dimensioni riflettono la scalabilit\u00e0 dell'architettura Janus. Il modello 1B, il pi\u00f9 leggero, \u00e8 gi\u00e0 stato utilizzato da utenti esterni per l'esecuzione nel browser tramite WebGPU.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"There_is_also_the_training_strategy\"><\/span><strong>C'\u00e8 anche <\/strong><strong>il<\/strong><strong> strategia di formazione.<\/strong><span class=\"ez-toc-section-end\"><\/span><\/h3>\n\n\n\n<p>In linea con la divisione delle fasi di formazione di Janus, l'Janus Pro ha un totale di tre fasi di formazione, che il documento divide direttamente in Fase I, Fase II e Fase III.<\/p>\n\n\n\n<p>Pur mantenendo le idee formative di base e gli obiettivi formativi di ciascuna fase, l'Janus-Pro ha apportato miglioramenti alla durata e ai dati della formazione nelle tre fasi. Di seguito sono riportati i miglioramenti specifici delle tre fasi:<\/p>\n\n\n\n<h4 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Stage_I_%E2%80%93_Longer_training_time\"><\/span><strong>Fase I - Tempo di allenamento pi\u00f9 lungo<\/strong><span class=\"ez-toc-section-end\"><\/span><\/h4>\n\n\n\n<p>Rispetto a Janus, Janus-Pro ha allungato i tempi di addestramento nella fase I, soprattutto per quanto riguarda l'addestramento degli adattatori e delle teste delle immagini nella parte visiva. Ci\u00f2 significa che l'apprendimento delle caratteristiche visive ha ricevuto pi\u00f9 tempo di addestramento e si spera che il modello possa comprendere appieno le caratteristiche dettagliate delle immagini (come la mappatura pixel-semantica).<\/p>\n\n\n\n<p>Questa formazione estesa aiuta a garantire che la formazione della parte visiva non sia disturbata da altri moduli.<\/p>\n\n\n\n<h4 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Stage_II_%E2%80%93_Removing_ImageNet_data_and_adding_multi-modal_data\"><\/span><strong>Fase II - Rimozione dei dati ImageNet e aggiunta di dati multimodali<\/strong><span class=\"ez-toc-section-end\"><\/span><\/h4>\n\n\n\n<p>Nella fase II, Janus ha fatto riferimento a PixArt e si \u00e8 allenato in due parti. La prima parte \u00e8 stata addestrata utilizzando il dataset ImageNet per la classificazione delle immagini, mentre la seconda parte \u00e8 stata addestrata utilizzando i normali dati testo-immagine. Circa due terzi del tempo della Fase II sono stati dedicati all'addestramento della prima parte.<\/p>\n\n\n\n<p>Janus-Pro elimina la formazione ImageNet nella fase II. Questo design consente al modello di concentrarsi sui dati da testo a immagine durante la fase II dell'addestramento. Secondo i risultati sperimentali, ci\u00f2 pu\u00f2 migliorare significativamente l'utilizzo dei dati da testo a immagine.<\/p>\n\n\n\n<p>Oltre all'adeguamento della progettazione del metodo di addestramento, il set di dati di addestramento utilizzato nella Fase II non \u00e8 pi\u00f9 limitato a un compito di classificazione di una singola immagine, ma include anche altri tipi di dati multimodali, come la descrizione dell'immagine e il dialogo, per l'addestramento congiunto.<\/p>\n\n\n\n<h4 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Stage_III_%E2%80%93_Optimizing_the_data_ratio\"><\/span><strong>Fase III - Ottimizzazione del rapporto dati<\/strong><span class=\"ez-toc-section-end\"><\/span><\/h4>\n\n\n\n<p>Nella fase III dell'addestramento, Janus-Pro regola il rapporto tra i diversi tipi di dati di addestramento.<\/p>\n\n\n\n<p>In precedenza, il rapporto tra dati di comprensione multimodale, dati di testo semplice e dati da testo a immagine nei dati di addestramento utilizzati da Janus nella Fase III era 7:3:10. L'Janus-Pro riduce il rapporto tra gli ultimi due tipi di dati e regola il rapporto tra i tre tipi di dati a 5:1:4, prestando cio\u00e8 maggiore attenzione al compito di comprensione multimodale.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Lets_look_at_the_training_data\"><\/span><strong>Esaminiamo i dati di allenamento.<\/strong><span class=\"ez-toc-section-end\"><\/span><\/h3>\n\n\n\n<p>Rispetto a Janus, questa volta l'Janus-Pro aumenta in modo significativo la quantit\u00e0 di<strong> dati sintetici.<\/strong><\/p>\n\n\n\n<p>Amplia la quantit\u00e0 e la variet\u00e0 di dati di addestramento per la comprensione multimodale e la generazione di immagini.<\/p>\n\n\n\n<h4 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Expansion_of_multimodal_understanding_data\"><\/span><strong>Espansione dei dati di comprensione multimodale:<\/strong><span class=\"ez-toc-section-end\"><\/span><\/h4>\n\n\n\n<p>Janus-Pro fa riferimento al set di dati DeepSeek-VL2 durante l'addestramento e aggiunge circa 90 milioni di punti dati aggiuntivi, tra cui non solo set di dati di descrizione delle immagini, ma anche set di dati di scene complesse come tabelle, grafici e documenti.<\/p>\n\n\n\n<p>Durante la fase di perfezionamento supervisionato (Fase III), continua ad aggiungere insiemi di dati relativi alla comprensione di MEME e al miglioramento dell'esperienza di dialogo (compreso il dialogo cinese).<\/p>\n\n\n\n<h4 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Expansion_of_visual_generation_data\"><\/span><strong>Espansione dei dati di generazione visiva:<\/strong><span class=\"ez-toc-section-end\"><\/span><\/h4>\n\n\n\n<p>I dati originali del mondo reale avevano una qualit\u00e0 scadente e alti livelli di rumore, che hanno fatto s\u00ec che il modello producesse risultati instabili e immagini di qualit\u00e0 estetica insufficiente nei compiti da testo a immagine.<\/p>\n\n\n\n<p>Janus-Pro ha aggiunto circa 72 milioni di nuovi dati sintetici ad alto contenuto estetico alla fase di addestramento, portando il rapporto tra dati reali e dati sintetici nella fase di pre-addestramento a 1:1.<\/p>\n\n\n\n<p>I suggerimenti per i dati sintetici sono stati tutti presi da risorse pubbliche. Gli esperimenti hanno dimostrato che l'aggiunta di questi dati fa convergere il modello pi\u00f9 velocemente e le immagini generate presentano evidenti miglioramenti in termini di stabilit\u00e0 e bellezza visiva.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"The_continuation_of_an_efficiency_revolution\"><\/span>La continuazione di una rivoluzione dell'efficienza?<span class=\"ez-toc-section-end\"><\/span><\/h2>\n\n\n\n<p>Nel complesso, con questa versione DeepSeek ha portato la rivoluzione dell'efficienza nei modelli visivi.<\/p>\n\n\n\n<p>A differenza dei modelli visivi che si concentrano su un'unica funzione o dei modelli multimodali che privilegiano un compito specifico, Janus-Pro bilancia gli effetti dei due compiti principali della generazione di immagini e della comprensione multimodale nello stesso modello.<\/p>\n\n\n\n<p>Inoltre, nonostante i suoi parametri ridotti, ha battuto OpenAI DALL-E 3 e SD3-Medium nella valutazione.<\/p>\n\n\n\n<p>Estesa a terra, l'azienda deve solo distribuire un modello per implementare direttamente le due funzioni di generazione e comprensione delle immagini. Se a ci\u00f2 si aggiunge una dimensione di soli 7B, la difficolt\u00e0 e il costo di implementazione sono molto pi\u00f9 bassi.<\/p>\n\n\n\n<p>In relazione ai precedenti rilasci di R1 e V3, DeepSeek sta sfidando le regole esistenti del gioco con<strong> \"innovazione architettonica compatta, modelli leggeri, modelli open source e costi di formazione bassissimi\".<\/strong>. Questo \u00e8 il motivo del panico tra i giganti tecnologici occidentali e persino a Wall Street.<\/p>\n\n\n\n<p>Proprio ora, Sam Altman, che \u00e8 stato trascinato dall'opinione pubblica per diversi giorni, ha finalmente risposto positivamente alle informazioni su DeepSeek su X - mentre elogiava R1, ha detto che OpenAI far\u00e0 alcuni annunci.<\/p>\n\n\n\n<figure class=\"wp-block-image\"><img loading=\"lazy\" decoding=\"async\" width=\"1051\" height=\"1280\" src=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/ade0e532-b451-4eff-832f-dcf20cff8f64.png\" alt=\"\" class=\"wp-image-868\" srcset=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/ade0e532-b451-4eff-832f-dcf20cff8f64.png 1051w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/ade0e532-b451-4eff-832f-dcf20cff8f64-246x300.png 246w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/ade0e532-b451-4eff-832f-dcf20cff8f64-841x1024.png 841w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/ade0e532-b451-4eff-832f-dcf20cff8f64-768x935.png 768w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/ade0e532-b451-4eff-832f-dcf20cff8f64-10x12.png 10w\" sizes=\"auto, (max-width: 1051px) 100vw, 1051px\" \/><\/figure>","protected":false},"excerpt":{"rendered":"<p>DeepSeek ha aggiornato il suo sito web. Nelle prime ore della notte di Capodanno, DeepSeek ha improvvisamente annunciato su GitHub che lo spazio del progetto Janus aveva aperto la fonte del modello Janus-Pro e del rapporto tecnico. Per prima cosa, sottolineiamo alcuni punti chiave: L'obiettivo \u00e8 quello di risolvere il difficile problema del settore: bilanciare la comprensione multimodale e la generazione di immagini secondo...<\/p>","protected":false},"author":2,"featured_media":704,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_kadence_starter_templates_imported_post":false,"_kad_post_transparent":"","_kad_post_title":"","_kad_post_layout":"","_kad_post_sidebar_id":"","_kad_post_content_style":"","_kad_post_vertical_padding":"","_kad_post_feature":"","_kad_post_feature_position":"","_kad_post_header":false,"_kad_post_footer":false,"footnotes":""},"categories":[1],"tags":[],"class_list":["post-857","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-uncategorized"],"_links":{"self":[{"href":"https:\/\/janusai.pro\/it\/wp-json\/wp\/v2\/posts\/857","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/janusai.pro\/it\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/janusai.pro\/it\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/janusai.pro\/it\/wp-json\/wp\/v2\/users\/2"}],"replies":[{"embeddable":true,"href":"https:\/\/janusai.pro\/it\/wp-json\/wp\/v2\/comments?post=857"}],"version-history":[{"count":1,"href":"https:\/\/janusai.pro\/it\/wp-json\/wp\/v2\/posts\/857\/revisions"}],"predecessor-version":[{"id":870,"href":"https:\/\/janusai.pro\/it\/wp-json\/wp\/v2\/posts\/857\/revisions\/870"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/janusai.pro\/it\/wp-json\/wp\/v2\/media\/704"}],"wp:attachment":[{"href":"https:\/\/janusai.pro\/it\/wp-json\/wp\/v2\/media?parent=857"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/janusai.pro\/it\/wp-json\/wp\/v2\/categories?post=857"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/janusai.pro\/it\/wp-json\/wp\/v2\/tags?post=857"}],"curies":[{"name":"parola chiave","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}