{"id":574,"date":"2025-01-28T07:03:48","date_gmt":"2025-01-28T07:03:48","guid":{"rendered":"https:\/\/janusai.pro\/?p=574"},"modified":"2025-01-28T08:08:08","modified_gmt":"2025-01-28T08:08:08","slug":"released-late-at-night-deepseek-redefines-ai-image-generation-and-understanding-as-the-groundbreaking-janus-pro-comprehensive-model-makes-its-debut","status":"publish","type":"post","link":"https:\/\/janusai.pro\/it\/released-late-at-night-deepseek-redefines-ai-image-generation-and-understanding-as-the-groundbreaking-janus-pro-comprehensive-model-makes-its-debut\/","title":{"rendered":"Rilasciato a notte fonda! DeepSeek ridefinisce la generazione e la comprensione delle immagini AI con il debutto dell'innovativo modello completo Janus-Pro!"},"content":{"rendered":"<div style=\"margin-top: 0px; margin-bottom: 0px;\" class=\"sharethis-inline-share-buttons\" ><\/div>\n<figure class=\"wp-block-image size-full\"><img loading=\"lazy\" decoding=\"async\" width=\"915\" height=\"564\" src=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/01\/640-2.png\" alt=\"\" class=\"wp-image-580\" srcset=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/01\/640-2.png 915w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/01\/640-2-300x185.png 300w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/01\/640-2-768x473.png 768w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/01\/640-2-18x12.png 18w\" sizes=\"auto, (max-width: 915px) 100vw, 915px\" \/><\/figure>\n\n\n\n<p><strong>Punti salienti<\/strong><br>\ud83d\udd39&nbsp;<strong>Architettura del trasformatore unificato<\/strong>: Un unico modello gestisce la comprensione delle immagini&nbsp;<em>e<\/em>&nbsp;generazione, eliminando la necessit\u00e0 di sistemi separati.<br>\ud83d\udd39&nbsp;<strong>Scalabile e open source<\/strong>: Disponibile in&nbsp;<strong>1B<\/strong>&nbsp;e&nbsp;<strong>7B<\/strong>&nbsp;versioni parametriche (con licenza MIT), ottimizzate per diverse applicazioni e uso commerciale.<br>\ud83d\udd39&nbsp;<strong>Prestazioni all'avanguardia<\/strong>: Supera DALL-E 3 e Stable Diffusion di OpenAI in benchmark come GenEval e DPG-Bench.<br>\ud83d\udd39&nbsp;<strong>Distribuzione semplificata<\/strong>: L'architettura semplificata riduce i costi di formazione\/intervento mantenendo la flessibilit\u00e0.<\/p>\n\n\n\n<p><strong>Link al modello<\/strong><\/p>\n\n\n\n<ul class=\"wp-block-list\">\n<li><strong>Janus-Pro-7B<\/strong>:&nbsp;<a href=\"https:\/\/huggingface.co\/deepseek-ai\/Janus-Pro-7B\" target=\"_blank\" rel=\"noreferrer noopener nofollow\">Faccia da abbracciare<\/a><\/li>\n\n\n\n<li><strong>Janus-Pro-1B<\/strong>:&nbsp;<a href=\"https:\/\/huggingface.co\/deepseek-ai\/Janus-Pro-1B\" target=\"_blank\" rel=\"noreferrer noopener nofollow\">Faccia da abbracciare<\/a><\/li>\n\n\n\n<li><strong>GitHub<\/strong>:&nbsp;<a href=\"https:\/\/github.com\/deepseek-ai\/Janus\" target=\"_blank\" rel=\"noreferrer noopener nofollow\">Codice e documenti<\/a><\/li>\n<\/ul>\n\n\n\n<hr class=\"wp-block-separator has-alpha-channel-opacity\"\/>\n\n\n\n<div id=\"ez-toc-container\" class=\"ez-toc-v2_0_82_2 counter-hierarchy ez-toc-counter ez-toc-grey ez-toc-container-direction\">\n<div class=\"ez-toc-title-container\">\n<p class=\"ez-toc-title\" style=\"cursor:inherit\">Indice dei contenuti<\/p>\n<span class=\"ez-toc-title-toggle\"><a href=\"#\" class=\"ez-toc-pull-right ez-toc-btn ez-toc-btn-xs ez-toc-btn-default ez-toc-toggle\" aria-label=\"Allinea la tabella dei contenuti\"><span class=\"ez-toc-js-icon-con\"><span class=\"\"><span class=\"eztoc-hide\" style=\"display:none;\">Toggle<\/span><span class=\"ez-toc-icon-toggle-span\"><svg style=\"fill: #999;color:#999\" xmlns=\"http:\/\/www.w3.org\/2000\/svg\" class=\"list-377408\" width=\"20px\" height=\"20px\" viewbox=\"0 0 24 24\" fill=\"none\"><path d=\"M6 6H4v2h2V6zm14 0H8v2h12V6zM4 11h2v2H4v-2zm16 0H8v2h12v-2zM4 16h2v2H4v-2zm16 0H8v2h12v-2z\" fill=\"currentColor\"><\/path><\/svg><svg style=\"fill: #999;color:#999\" class=\"arrow-unsorted-368013\" xmlns=\"http:\/\/www.w3.org\/2000\/svg\" width=\"10px\" height=\"10px\" viewbox=\"0 0 24 24\" version=\"1.2\" baseprofile=\"tiny\"><path d=\"M18.2 9.3l-6.2-6.3-6.2 6.3c-.2.2-.3.4-.3.7s.1.5.3.7c.2.2.4.3.7.3h11c.3 0 .5-.1.7-.3.2-.2.3-.5.3-.7s-.1-.5-.3-.7zM5.8 14.7l6.2 6.3 6.2-6.3c.2-.2.3-.5.3-.7s-.1-.5-.3-.7c-.2-.2-.4-.3-.7-.3h-11c-.3 0-.5.1-.7.3-.2.2-.3.5-.3.7s.1.5.3.7z\"\/><\/svg><\/span><\/span><\/span><\/a><\/span><\/div>\n<nav><ul class='ez-toc-list ez-toc-list-level-1' ><li class='ez-toc-page-1 ez-toc-heading-level-3'><a class=\"ez-toc-link ez-toc-heading-1\" href=\"https:\/\/janusai.pro\/it\/released-late-at-night-deepseek-redefines-ai-image-generation-and-understanding-as-the-groundbreaking-janus-pro-comprehensive-model-makes-its-debut\/#Why_Janus-Pro_Stands_Out\" >Perch\u00e9 Janus-Pro si distingue<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-3'><a class=\"ez-toc-link ez-toc-heading-2\" href=\"https:\/\/janusai.pro\/it\/released-late-at-night-deepseek-redefines-ai-image-generation-and-understanding-as-the-groundbreaking-janus-pro-comprehensive-model-makes-its-debut\/#Benchmark_Dominance\" >Dominanza del benchmark<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-3'><a class=\"ez-toc-link ez-toc-heading-3\" href=\"https:\/\/janusai.pro\/it\/released-late-at-night-deepseek-redefines-ai-image-generation-and-understanding-as-the-groundbreaking-janus-pro-comprehensive-model-makes-its-debut\/#Technical_Breakdown\" >Ripartizione tecnica<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-3'><a class=\"ez-toc-link ez-toc-heading-4\" href=\"https:\/\/janusai.pro\/it\/released-late-at-night-deepseek-redefines-ai-image-generation-and-understanding-as-the-groundbreaking-janus-pro-comprehensive-model-makes-its-debut\/#Community_Buzz\" >Buzz della comunit\u00e0<\/a><\/li><\/ul><\/nav><\/div>\n<h3 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Why_Janus-Pro_Stands_Out\"><\/span><strong>Perch\u00e9 Janus-Pro si distingue<\/strong><span class=\"ez-toc-section-end\"><\/span><\/h3>\n\n\n\n<p><strong>1. Due superpoteri in un unico modello<\/strong><\/p>\n\n\n\n<ul class=\"wp-block-list\">\n<li><strong>Modalit\u00e0 di comprensione<\/strong>: Usi&nbsp;<strong>SigLIP-L<\/strong>&nbsp;(i \"superocchiali\") per analizzare immagini (fino a 384\u00d7384) e testo.<\/li>\n\n\n\n<li><strong>Modalit\u00e0 di generazione<\/strong>: Leveraggi&nbsp;<strong>Flusso rettificato<\/strong>&nbsp;+&nbsp;<strong>SDXL-VAE<\/strong>&nbsp;(il \"pennello magico\") per creare immagini di alta qualit\u00e0.<\/li>\n<\/ul>\n\n\n\n<p><strong>2. Potenza cerebrale e formazione<\/strong><\/p>\n\n\n\n<ul class=\"wp-block-list\">\n<li><strong>Core LLM<\/strong>: Costruito sul potente modello linguistico di DeepSeek (1,5B\/7B parametri), che eccelle nel ragionamento contestuale.<\/li>\n\n\n\n<li><strong>Linea di formazione<\/strong>: Pre-training su enormi insiemi di dati \u2192 Messa a punto supervisionata \u2192 Ottimizzazione dell'EMA per ottenere le massime prestazioni.<\/li>\n<\/ul>\n\n\n\n<p><strong>3. Perch\u00e9 la sovradiffusione del trasformatore?<\/strong><\/p>\n\n\n\n<ul class=\"wp-block-list\">\n<li><strong>Versatilit\u00e0 del compito<\/strong>: Privilegia la comprensione e la generazione unificata, mentre i modelli di diffusione si concentrano esclusivamente sulla qualit\u00e0 dell'immagine.<\/li>\n\n\n\n<li><strong>Efficienza<\/strong>: Generazione autoregressiva (a passo singolo) e denoising iterativo della diffusione (ad esempio, 20 passi per la diffusione stabile).<\/li>\n\n\n\n<li><strong>Costo-efficacia<\/strong>: Un'unica dorsale Transformer semplifica la formazione e l'implementazione.<\/li>\n<\/ul>\n\n\n\n<hr class=\"wp-block-separator has-alpha-channel-opacity\"\/>\n\n\n\n<figure class=\"wp-block-image size-large\"><img loading=\"lazy\" decoding=\"async\" width=\"1024\" height=\"955\" src=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/01\/b84eb858a5b578c05460fcee5e528fd4-1024x955.jpeg\" alt=\"\" class=\"wp-image-578\" srcset=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/01\/b84eb858a5b578c05460fcee5e528fd4-1024x955.jpeg 1024w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/01\/b84eb858a5b578c05460fcee5e528fd4-300x280.jpeg 300w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/01\/b84eb858a5b578c05460fcee5e528fd4-768x716.jpeg 768w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/01\/b84eb858a5b578c05460fcee5e528fd4-13x12.jpeg 13w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/01\/b84eb858a5b578c05460fcee5e528fd4.jpeg 1080w\" sizes=\"auto, (max-width: 1024px) 100vw, 1024px\" \/><\/figure>\n\n\n\n<h3 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Benchmark_Dominance\"><\/span><strong>Dominanza del benchmark<\/strong><span class=\"ez-toc-section-end\"><\/span><\/h3>\n\n\n\n<p><strong>\ud83d\udcca Comprensione multimodale<\/strong><br>L'Janus-Pro-7B supera i modelli specializzati (ad esempio, LLaVA) su quattro benchmark chiave, con una scala uniforme con la dimensione dei parametri.<\/p>\n\n\n\n<p><strong>\ud83c\udfa8 Generazione da testo a immagine<\/strong><\/p>\n\n\n\n<ul class=\"wp-block-list\">\n<li><strong>GenEval<\/strong>: Corrisponde a SDXL e DALL-E 3.<\/li>\n\n\n\n<li><strong>Banco DPG<\/strong>:&nbsp;<strong>84.2% precisione<\/strong>&nbsp;(Janus-Pro-7B), superando tutti i concorrenti.<\/li>\n<\/ul>\n\n\n\n<p><strong>Test nel mondo reale<\/strong><\/p>\n\n\n\n<ul class=\"wp-block-list\">\n<li><strong>Velocit\u00e0<\/strong>: ~15 secondi\/immagine (GPU L4, 22 GB di VRAM).<\/li>\n\n\n\n<li><strong>Qualit\u00e0<\/strong>: Forte aderenza ai tempi, anche se i dettagli minori devono essere perfezionati.<\/li>\n\n\n\n<li><strong>Demo di Colab<\/strong>:&nbsp;<a href=\"https:\/\/colab.research.google.com\/drive\/1V3bH2oxhikj_B_EYy5yRG_9yqSqxxqgS?usp=sharing\" target=\"_blank\" rel=\"noreferrer noopener nofollow\">Prova Janus-Pro-7B<\/a>&nbsp;(\u00e8 richiesto il livello Pro).<\/li>\n<\/ul>\n\n\n\n<hr class=\"wp-block-separator has-alpha-channel-opacity\"\/>\n\n\n\n<h3 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Technical_Breakdown\"><\/span><strong>Ripartizione tecnica<\/strong><span class=\"ez-toc-section-end\"><\/span><\/h3>\n\n\n\n<p><strong>Architettura<\/strong><\/p>\n\n\n\n<figure class=\"wp-block-image size-large\"><img loading=\"lazy\" decoding=\"async\" width=\"1024\" height=\"376\" src=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/01\/640-1024x376.png\" alt=\"\" class=\"wp-image-579\" srcset=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/01\/640-1024x376.png 1024w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/01\/640-300x110.png 300w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/01\/640-768x282.png 768w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/01\/640-18x7.png 18w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/01\/640.png 1080w\" sizes=\"auto, (max-width: 1024px) 100vw, 1024px\" \/><\/figure>\n\n\n\n<ul class=\"wp-block-list\">\n<li><strong>Comprensione del percorso<\/strong>: Immagine pulita \u2192 Codificatore SigLIP-L \u2192 LLM \u2192 Risposta testuale.<\/li>\n\n\n\n<li><strong>Percorso di generazione<\/strong>: Immagine rumorosa \u2192 Decodificatore di flusso rettificato + LLM \u2192 Denoising iterativo.<\/li>\n<\/ul>\n\n\n\n<p><strong>Innovazioni chiave<\/strong><\/p>\n\n\n\n<ul class=\"wp-block-list\">\n<li><strong>Codifica visiva disaccoppiata<\/strong>: Percorsi separati per la comprensione\/generazione impediscono il \"conflitto di ruolo\" nei moduli di visione.<\/li>\n\n\n\n<li><strong>Nucleo del trasformatore condiviso<\/strong>: Permette di trasferire le conoscenze tra i vari compiti (ad esempio, l'apprendimento dei concetti di \"gatto\" aiuta sia il riconoscimento che il disegno).<\/li>\n<\/ul>\n\n\n\n<hr class=\"wp-block-separator has-alpha-channel-opacity\"\/>\n\n\n\n<h3 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Community_Buzz\"><\/span><strong>Buzz della comunit\u00e0<\/strong><span class=\"ez-toc-section-end\"><\/span><\/h3>\n\n\n\n<blockquote class=\"wp-block-quote is-layout-flow wp-block-quote-is-layout-flow\">\n<p><strong>AK (Ricercatore AI)<\/strong>:&nbsp;<em>\"La semplicit\u00e0 e la flessibilit\u00e0 dell'Janus-Pro lo rendono un candidato privilegiato per i sistemi multimodali di prossima generazione. Disaccoppiando i percorsi visivi e mantenendo un trasformatore unificato, bilancia la specializzazione con la generalizzazione: un'impresa rara\".<\/em><\/p>\n<\/blockquote>\n\n\n\n<p><strong>Perch\u00e9 la licenza MIT \u00e8 importante<\/strong><\/p>\n\n\n\n<ul class=\"wp-block-list\">\n<li><strong>Libert\u00e0<\/strong>: Utilizzate, modificate e distribuite commercialmente con restrizioni minime.<\/li>\n\n\n\n<li><strong>Trasparenza<\/strong>: L'accesso completo al codice accelera i miglioramenti della comunit\u00e0.<\/li>\n<\/ul>\n\n\n\n<hr class=\"wp-block-separator has-alpha-channel-opacity\"\/>\n\n\n\n<p><strong>Conclusione<\/strong><br>L'Janus-Pro di DeepSeek non \u00e8 solo un altro modello di AI: \u00e8 un cambiamento di paradigma. Unificando la comprensione e la generazione sotto un unico tetto, apre le porte a strumenti creativi pi\u00f9 intelligenti, applicazioni in tempo reale e implementazioni efficienti dal punto di vista dei costi. Con l'accesso open-source e la licenza MIT, potrebbe essere il catalizzatore della prossima ondata di innovazione multimodale. \ud83d\ude80<\/p>\n\n\n\n<p><em>Per gli sviluppatori: Date un'occhiata al sito&nbsp;<a href=\"https:\/\/github.com\/deepseek-ai\/Janus\" target=\"_blank\" rel=\"noreferrer noopener nofollow\">Nodi ComfyUI<\/a>&nbsp;e unirsi all'onda della sperimentazione!<\/em><\/p>\n\n\n\n<p><\/p>\n\n\n\n<p>questo post \u00e8 sponsorizzato da:<\/p>\n\n\n\n<a href=\"https:\/\/dang.ai\/\" target=\"_blank\" rel=\"noopener\"><img loading=\"lazy\" decoding=\"async\" src=\"https:\/\/cdn.prod.website-files.com\/63d8afd87da01fb58ea3fbcb\/6487e2868c6c8f93b4828827_dang-badge.png\" alt=\"Dang.ai\" style=\"width: 150px; height: 54px;\" width=\"150\" height=\"54\"\/><\/a>\n\n\n\n<p><a href=\"https:\/\/dang.ai\/\" target=\"_blank\" rel=\"noreferrer noopener\"><\/a><\/p>\n\n\n\n<p><\/p>","protected":false},"excerpt":{"rendered":"<p>Punti di forza\ud83d\udd39 Architettura del trasformatore unificata: Un unico modello gestisce sia la comprensione che la generazione delle immagini, eliminando la necessit\u00e0 di sistemi separati.\ud83d\udd39 Scalabile e open-source: Disponibile nelle versioni a 1B e 7B parametri (con licenza MIT), ottimizzato per diverse applicazioni e uso commerciale: Supera DALL-E 3 e Stable Diffusion di OpenAI in benchmark come GenEval e DPG-Bench.\ud83d\udd39 Distribuzione semplificata: L'architettura semplificata riduce i costi di formazione\/inferenza mantenendo la flessibilit\u00e0. Collegamenti tra modelli...<\/p>","protected":false},"author":1,"featured_media":580,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_kadence_starter_templates_imported_post":false,"_kad_post_transparent":"","_kad_post_title":"","_kad_post_layout":"","_kad_post_sidebar_id":"","_kad_post_content_style":"","_kad_post_vertical_padding":"","_kad_post_feature":"","_kad_post_feature_position":"","_kad_post_header":false,"_kad_post_footer":false,"footnotes":""},"categories":[1],"tags":[],"class_list":["post-574","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-uncategorized"],"_links":{"self":[{"href":"https:\/\/janusai.pro\/it\/wp-json\/wp\/v2\/posts\/574","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/janusai.pro\/it\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/janusai.pro\/it\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/janusai.pro\/it\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/janusai.pro\/it\/wp-json\/wp\/v2\/comments?post=574"}],"version-history":[{"count":3,"href":"https:\/\/janusai.pro\/it\/wp-json\/wp\/v2\/posts\/574\/revisions"}],"predecessor-version":[{"id":609,"href":"https:\/\/janusai.pro\/it\/wp-json\/wp\/v2\/posts\/574\/revisions\/609"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/janusai.pro\/it\/wp-json\/wp\/v2\/media\/580"}],"wp:attachment":[{"href":"https:\/\/janusai.pro\/it\/wp-json\/wp\/v2\/media?parent=574"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/janusai.pro\/it\/wp-json\/wp\/v2\/categories?post=574"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/janusai.pro\/it\/wp-json\/wp\/v2\/tags?post=574"}],"curies":[{"name":"parola chiave","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}