{"id":746,"date":"2025-01-30T13:05:33","date_gmt":"2025-01-30T13:05:33","guid":{"rendered":"https:\/\/janusai.pro\/?p=746"},"modified":"2025-01-30T13:05:35","modified_gmt":"2025-01-30T13:05:35","slug":"the-complete-explanation-from-deepseek-janus-to-janus-pro","status":"publish","type":"post","link":"https:\/\/janusai.pro\/it\/the-complete-explanation-from-deepseek-janus-to-janus-pro\/","title":{"rendered":"La spiegazione completa: da DeepSeek Janus a Janus-Pro!"},"content":{"rendered":"<div style=\"margin-top: 0px; margin-bottom: 0px;\" class=\"sharethis-inline-share-buttons\" ><\/div>\n<p>Messaggio da portare a casa: Janus \u00e8 un modello di comprensione e generazione multimodale semplice, unificato ed estensibile che disaccoppia la comprensione multimodale e la codifica visiva generata, attenuando i potenziali conflitti tra i due compiti. Pu\u00f2 essere esteso per incorporare ulteriori modalit\u00e0 di input in futuro. Janus-Pro si basa su queste fondamenta ottimizzando la strategia di addestramento (aumentando il numero di fasi di addestramento, regolando i rapporti tra i dati, ecc.), aggiungendo altri dati (utilizzando anche dati sintetici, ecc.) e aumentando le dimensioni del modello (fino a 7 miliardi di parametri), il che porta a progressi nelle capacit\u00e0 di comprensione multimodale e di aderenza alle istruzioni da testo a immagine del modello.<\/p>\n\n\n\n<figure class=\"wp-block-image\"><img decoding=\"async\" src=\"https:\/\/rmy9ct2fln.feishu.cn\/space\/api\/box\/stream\/download\/asynccode\/?code=Mjg4MjEwYjVlNzk0YTgyMTc0NDJlODQ4MTU2ZmRjYTVfWnhaaVEyZlEwUHFrUHNUeGNCOWpCRU1EVDN0QktBMUxfVG9rZW46SkVQZmJmSEhqb1g4YTJ4MVNYdmNPT2oybmVmXzE3MzgyNDIwMzc6MTczODI0NTYzN19WNA\" alt=\"\"\/><\/figure>\n\n\n\n<p><a href=\"https:\/\/github.com\/deepseek-ai\/JanusJanus\" target=\"_blank\" rel=\"noreferrer noopener nofollow\">Indirizzo del codice<\/a><\/p>\n\n\n\n<p><a href=\"https:\/\/github.com\/deepseek-ai\/Janus\/blob\/main\/janus_pro_tech_report.pdf\" target=\"_blank\" rel=\"noreferrer noopener nofollow\">Indirizzo Janus Pro<\/a><\/p>\n\n\n\n<p><a href=\"https:\/\/huggingface.co\/deepseek-ai\/Janus-Pro-7B\" target=\"_blank\" rel=\"noreferrer noopener nofollow\">Janus-Pro<\/a> \u00e8 una versione avanzata del precedente lavoro Janus, che include in particolare (1) una strategia di addestramento ottimizzata, (2) dati di addestramento pi\u00f9 ampi e (3) modelli di dimensioni maggiori. Grazie a questi miglioramenti, Janus-Pro compie progressi significativi nelle capacit\u00e0 di comprensione multimodale e di aderenza alle istruzioni testo-immagine, migliorando al contempo la stabilit\u00e0 della generazione testo-immagine. Prima di esaminare l'Janus-Pro, passiamo in rassegna Janus.<\/p>\n\n\n\n<div id=\"ez-toc-container\" class=\"ez-toc-v2_0_82_2 counter-hierarchy ez-toc-counter ez-toc-grey ez-toc-container-direction\">\n<div class=\"ez-toc-title-container\">\n<p class=\"ez-toc-title\" style=\"cursor:inherit\">Indice dei contenuti<\/p>\n<span class=\"ez-toc-title-toggle\"><a href=\"#\" class=\"ez-toc-pull-right ez-toc-btn ez-toc-btn-xs ez-toc-btn-default ez-toc-toggle\" aria-label=\"Allinea la tabella dei contenuti\"><span class=\"ez-toc-js-icon-con\"><span class=\"\"><span class=\"eztoc-hide\" style=\"display:none;\">Toggle<\/span><span class=\"ez-toc-icon-toggle-span\"><svg style=\"fill: #999;color:#999\" xmlns=\"http:\/\/www.w3.org\/2000\/svg\" class=\"list-377408\" width=\"20px\" height=\"20px\" viewbox=\"0 0 24 24\" fill=\"none\"><path d=\"M6 6H4v2h2V6zm14 0H8v2h12V6zM4 11h2v2H4v-2zm16 0H8v2h12v-2zM4 16h2v2H4v-2zm16 0H8v2h12v-2z\" fill=\"currentColor\"><\/path><\/svg><svg style=\"fill: #999;color:#999\" class=\"arrow-unsorted-368013\" xmlns=\"http:\/\/www.w3.org\/2000\/svg\" width=\"10px\" height=\"10px\" viewbox=\"0 0 24 24\" version=\"1.2\" baseprofile=\"tiny\"><path d=\"M18.2 9.3l-6.2-6.3-6.2 6.3c-.2.2-.3.4-.3.7s.1.5.3.7c.2.2.4.3.7.3h11c.3 0 .5-.1.7-.3.2-.2.3-.5.3-.7s-.1-.5-.3-.7zM5.8 14.7l6.2 6.3 6.2-6.3c.2-.2.3-.5.3-.7s-.1-.5-.3-.7c-.2-.2-.4-.3-.7-.3h-11c-.3 0-.5.1-.7.3-.2.2-.3.5-.3.7s.1.5.3.7z\"\/><\/svg><\/span><\/span><\/span><\/a><\/span><\/div>\n<nav><ul class='ez-toc-list ez-toc-list-level-1' ><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-1\" href=\"https:\/\/janusai.pro\/it\/the-complete-explanation-from-deepseek-janus-to-janus-pro\/#Reviewing_Janus\" >Recensione di Janus<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-2\" href=\"https:\/\/janusai.pro\/it\/the-complete-explanation-from-deepseek-janus-to-janus-pro\/#Janus_training_is_divided_into_3_phases\" >La formazione Janus \u00e8 suddivisa in 3 fasi:<\/a><ul class='ez-toc-list-level-3' ><li class='ez-toc-heading-level-3'><a class=\"ez-toc-link ez-toc-heading-3\" href=\"https:\/\/janusai.pro\/it\/the-complete-explanation-from-deepseek-janus-to-janus-pro\/#Phase_1\" >Fase 1<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-3'><a class=\"ez-toc-link ez-toc-heading-4\" href=\"https:\/\/janusai.pro\/it\/the-complete-explanation-from-deepseek-janus-to-janus-pro\/#Phase_2\" >Fase 2<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-3'><a class=\"ez-toc-link ez-toc-heading-5\" href=\"https:\/\/janusai.pro\/it\/the-complete-explanation-from-deepseek-janus-to-janus-pro\/#Phase_3\" >Fase 3<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-3'><a class=\"ez-toc-link ez-toc-heading-6\" href=\"https:\/\/janusai.pro\/it\/the-complete-explanation-from-deepseek-janus-to-janus-pro\/#Training_Objectives\" >Obiettivi della formazione<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-3'><a class=\"ez-toc-link ez-toc-heading-7\" href=\"https:\/\/janusai.pro\/it\/the-complete-explanation-from-deepseek-janus-to-janus-pro\/#Reasoning\" >Ragionamento<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-3'><a class=\"ez-toc-link ez-toc-heading-8\" href=\"https:\/\/janusai.pro\/it\/the-complete-explanation-from-deepseek-janus-to-janus-pro\/#Possible_extensions\" >Possibili estensioni<\/a><\/li><\/ul><\/li><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-9\" href=\"https:\/\/janusai.pro\/it\/the-complete-explanation-from-deepseek-janus-to-janus-pro\/#Janus-Pro_Upgrade\" >Aggiornamento Janus-Pro<\/a><ul class='ez-toc-list-level-3' ><li class='ez-toc-heading-level-3'><a class=\"ez-toc-link ez-toc-heading-10\" href=\"https:\/\/janusai.pro\/it\/the-complete-explanation-from-deepseek-janus-to-janus-pro\/#Main_Improvements\" >Miglioramenti principali<\/a><ul class='ez-toc-list-level-4' ><li class='ez-toc-heading-level-4'><a class=\"ez-toc-link ez-toc-heading-11\" href=\"https:\/\/janusai.pro\/it\/the-complete-explanation-from-deepseek-janus-to-janus-pro\/#Training_Strategy\" >Strategia di formazione<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-4'><a class=\"ez-toc-link ez-toc-heading-12\" href=\"https:\/\/janusai.pro\/it\/the-complete-explanation-from-deepseek-janus-to-janus-pro\/#Data_Scale\" >Scala dati<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-4'><a class=\"ez-toc-link ez-toc-heading-13\" href=\"https:\/\/janusai.pro\/it\/the-complete-explanation-from-deepseek-janus-to-janus-pro\/#Model_Scale\" >Modello in scala<\/a><\/li><\/ul><\/li><li class='ez-toc-page-1 ez-toc-heading-level-3'><a class=\"ez-toc-link ez-toc-heading-14\" href=\"https:\/\/janusai.pro\/it\/the-complete-explanation-from-deepseek-janus-to-janus-pro\/#Experimental_details\" >Dettagli sperimentali<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-3'><a class=\"ez-toc-link ez-toc-heading-15\" href=\"https:\/\/janusai.pro\/it\/the-complete-explanation-from-deepseek-janus-to-janus-pro\/#Insufficient\" >Insufficiente<\/a><\/li><\/ul><\/li><\/ul><\/nav><\/div>\n<h2 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Reviewing_Janus\"><\/span>Recensione di Janus<span class=\"ez-toc-section-end\"><\/span><\/h2>\n\n\n\n<p>Il predecessore Janus \u00e8 un framework autoregressivo per la comprensione e la generazione multimodale unificata, utilizzato per disaccoppiare la codifica visiva per la comprensione e la generazione multimodale unificata. Per la comprensione multimodale, il progetto segue tipicamente LLaVA, utilizzando i codificatori visivi come ponte per consentire ai modelli linguistici di grandi dimensioni di comprendere le immagini. Per la generazione, di solito si basa su modelli di diffusione e alcuni si basano su metodi autoregressivi. Alcuni approcci tentano di utilizzare un singolo trasformatore per cercare di unificare i compiti di comprensione e generazione multimodale, che in genere utilizza un singolo codificatore visivo per elaborare gli input di entrambi i compiti.<\/p>\n\n\n\n<p>Tuttavia, esistono differenze nelle rappresentazioni richieste per i compiti di comprensione e generazione multimodale. Nel compito di comprensione multimodale, l'encoder visivo mira a estrarre informazioni semantiche di alto livello (per esempio, categorie di oggetti o attributi visivi), e l'output comporta non solo l'estrazione di informazioni dall'immagine, ma anche un complesso ragionamento semantico, con l'encoder che si concentra principalmente su rappresentazioni semantiche ad alta dimensione. Il compito di generazione si occupa principalmente di generare dettagli locali e di mantenere la coerenza globale dell'immagine, richiedendo quindi rappresentazioni codificate a bassa dimensione delle strutture spaziali e dei dettagli della texture. Unificare le rappresentazioni di entrambi i compiti nello stesso spazio pu\u00f2 portare a conflitti.<\/p>\n\n\n\n<p>Janus contiene due percorsi di codifica visiva indipendenti per la comprensione e la generazione multimodale e offre due vantaggi: 1) attenua i conflitti derivanti dai diversi requisiti di granularit\u00e0 della comprensione e della generazione multimodale e 2) \u00e8 flessibile e scalabile, disaccoppiando in modo che sia i compiti di comprensione che quelli di generazione possano essere codificati utilizzando tecniche di codifica all'avanguardia specifiche per i loro domini e, in futuro, potranno essere alimentati con nuvole di punti, segnali EEG o dati audio ed elaborati utilizzando un trasformatore unificato.<\/p>\n\n\n\n<figure class=\"wp-block-image\"><img decoding=\"async\" src=\"https:\/\/rmy9ct2fln.feishu.cn\/space\/api\/box\/stream\/download\/asynccode\/?code=OTE3ZjkyNWQ5MmUwNDQzM2VjN2VlNWYwZjAxYTVmZGRfMXpJMWVObDBKOHYxTVJqeEw2S0pHT2hGU3RuVHdnWVdfVG9rZW46UDQyQ2Jrb0Myb1h0bjR4TFBrV2NRS29GbkRmXzE3MzgyNDIwMzc6MTczODI0NTYzN19WNA\" alt=\"\"\/><\/figure>\n\n\n\n<p>Per la comprensione del testo, questo viene convertito in ID discreti utilizzando il Tokenizer integrato di LLM;<\/p>\n\n\n\n<p>Per la comprensione multimodale, le caratteristiche semantiche ad alta dimensione delle immagini vengono estratte utilizzando i codificatori SigLIP (nota dell'autore: Cosmos utilizza anche i codificatori SigLIP nella sezione Guardrails), e le caratteristiche estratte vengono mappate nello spazio delle caratteristiche testuali di LLM utilizzando Adaptor (MLP a 2 strati);<\/p>\n\n\n\n<p>Il lato lungo \u00e8 stato regolato a 384 pixel e il lato corto \u00e8 stato riempito a 384 pixel utilizzando RGB(127, 127, 127);<\/p>\n\n\n\n<p>Per la generazione visiva, l'immagine \u00e8 stata convertita in ID discreti utilizzando il VQ Tokenizer e ogni ID \u00e8 stato mappato nello spazio delle caratteristiche testuali dell'LLM utilizzando l'Adaptor (MLP a 2 strati);<\/p>\n\n\n\n<p>I bordi corti sono stati ridimensionati a 384 pixel e i bordi lunghi sono stati ritagliati a 384 pixel;<\/p>\n\n\n\n<p>L'addestramento complessivo \u00e8 stato eseguito utilizzando 16 nodi, ciascuno contenente 8 GPU Nvidia A100;<\/p>\n\n\n\n<p>Per entrambi i compiti di generazione visiva e di comprensione multimodale, le sequenze di caratteristiche dell'immagine e le sequenze di caratteristiche del testo sono collegate insieme come input al LLM (nel testo viene utilizzato DeepSeek-LLM 1.3B);<\/p>\n\n\n\n<blockquote class=\"wp-block-quote is-layout-flow wp-block-quote-is-layout-flow\">\n<p>La testa di predizione incorporata dell'LLM viene utilizzata per le predizioni del testo sia nel compito di comprensione del testo puro che in quello di comprensione multimodale, mentre una testa di predizione inizializzata in modo casuale viene utilizzata per le predizioni delle immagini nel compito di generazione visiva. L'intero modello aderisce a una struttura autoregressiva senza la necessit\u00e0 di maschere di attenzione appositamente progettate.<\/p>\n<\/blockquote>\n\n\n\n<h2 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Janus_training_is_divided_into_3_phases\"><\/span><a href=\"https:\/\/huggingface.co\/deepseek-ai\/Janus-Pro-7B\" target=\"_blank\" rel=\"noreferrer noopener nofollow\">Formazione Janus<\/a> \u00e8 suddiviso in 3 fasi:<span class=\"ez-toc-section-end\"><\/span><\/h2>\n\n\n\n<h3 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Phase_1\"><\/span>Fase 1<span class=\"ez-toc-section-end\"><\/span><\/h3>\n\n\n\n<p><strong>Adattatore treno e testina immagine<\/strong> per creare connessioni tra elementi linguistici e visivi nello spazio di incorporazione, consentendo al LLM di comprendere le entit\u00e0 nell'immagine e di avere capacit\u00e0 iniziali di generazione visiva;<\/p>\n\n\n\n<p>Per la comprensione multimodale, utilizzare 1,25 milioni di dati di didascalie accoppiate immagine-testo da SHareGPT4V nel formato: ;<\/p>\n\n\n\n<p>Per la generazione visiva, utilizzando 1,2 milioni di campioni da ImageNet1k nel formato: ;<\/p>\n\n\n\n<h3 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Phase_2\"><\/span>Fase 2<span class=\"ez-toc-section-end\"><\/span><\/h3>\n\n\n\n<p><strong>Preformazione unificata<\/strong>utilizzando un corpus multimodale per il pre-training unificato per l'apprendimento della comprensione e della generazione multimodale. In questa fase vengono utilizzati dati di testo, dati di comprensione multimodale e dati di generazione visiva. Semplice addestramento alla generazione visiva utilizzando ImageNet-1k, seguito dall'uso di dati generici da testo a immagine per migliorare la generazione visiva nel dominio aperto del modello;<\/p>\n\n\n\n<p>Dati di testo: Corpus pre-addestrato DeepSeek-LLM;<\/p>\n\n\n\n<p>Dati interlacciati immagine-testo: I dataset WikiHow e WIT;<\/p>\n\n\n\n<p>Dati delle didascalie delle immagini: Immagini provenienti da pi\u00f9 fonti e didascalia di alcune immagini utilizzando modelli multimodali open source, con dati formattati come coppie di domande e risposte, ad esempio Descrivi l'immagine in dettaglio.<caption>;<\/p>\n\n\n\n<p>Dati tabellari e grafici: dati tabellari e grafici corrispondenti di DeepSeek-VL nel formato ;<\/p>\n\n\n\n<p>Dati generati visivamente: coppie immagine-didascalia da pi\u00f9 set di dati e 2 milioni di dati interni;<\/p>\n\n\n\n<p>Durante l'addestramento, solo la prima frase della didascalia viene utilizzata in modo casuale con una probabilit\u00e0 di 25%;<\/p>\n\n\n\n<p>I campioni di ImageNet compaiono solo nei 120K passi iniziali di addestramento, mentre le immagini di altri set di dati compaiono nei 60K passi successivi;<\/p>\n\n\n\n<h3 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Phase_3\"><\/span>Fase 3<span class=\"ez-toc-section-end\"><\/span><\/h3>\n\n\n\n<p><strong>Messa a punto supervisionata<\/strong>in cui i modelli pre-addestrati vengono messi a punto utilizzando i dati di messa a punto delle istruzioni per migliorare la loro capacit\u00e0 di seguire le istruzioni e il dialogo. Messa a punto di tutti i parametri, tranne il codificatore di generazione. Mascherare le indicazioni del sistema e dell'utente durante la supervisione delle risposte. Per garantire che Janus sia in grado di comprendere e generare in modo multimodale, i modelli non vengono messi a punto separatamente per compiti specifici. Al contrario, utilizziamo un mix di dati di dialogo di solo testo, dati di comprensione multimodale e dati di generazione visiva per garantire la versatilit\u00e0 in una variet\u00e0 di scenari;<\/p>\n\n\n\n<p>Comprensione del testo: utilizza dati provenienti da fonti specifiche;<\/p>\n\n\n\n<p>Comprensione multimodale: utilizzo di dati provenienti da pi\u00f9 fonti per la messa a punto dell'istruzione;<\/p>\n\n\n\n<p>Generazione visiva: utilizzando un sottoinsieme di coppie immagine-testo da alcuni set di dati della Fase II e 4 milioni di dati interni;<\/p>\n\n\n\n<p>Il formato dei dati \u00e8: Utente: \\n Assistente: ;<\/p>\n\n\n\n<figure class=\"wp-block-image\"><img decoding=\"async\" src=\"https:\/\/rmy9ct2fln.feishu.cn\/space\/api\/box\/stream\/download\/asynccode\/?code=M2I3MWQ5MjQyNTM5NjIyZTkyMjdlODgwMDg5NzIwYzJfSGVTUnVzb0I3bEREQXBkMEJGN0lqT0JBaEVUWEQwS05fVG9rZW46Vm9OMWJzYnNsbzRGR1R4YlJrNWNad1psblhjXzE3MzgyNDIwMzc6MTczODI0NTYzN19WNA\" alt=\"\"\/><\/figure>\n\n\n\n<h3 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Training_Objectives\"><\/span>Obiettivi della formazione<span class=\"ez-toc-section-end\"><\/span><\/h3>\n\n\n\n<p>Janus \u00e8 un modello autoregressivo addestrato utilizzando una funzione di perdita di tipo cross-entropy; per i compiti di comprensione del testo e di comprensione multimodale, la perdita \u00e8 calcolata sulla sequenza di testo. Per i compiti di generazione visiva, la perdita \u00e8 calcolata solo sulla sequenza di immagini. Per mantenere il progetto semplice, non vengono assegnati pesi di perdita diversi ai vari compiti.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Reasoning\"><\/span>Ragionamento<span class=\"ez-toc-section-end\"><\/span><\/h3>\n\n\n\n<p>Utilizzando il metodo di predizione dell'elemento lessicale successivo, per la comprensione del testo semplice e per la comprensione multimodale, gli elementi lessicali vengono campionati in modo sequenziale dalla distribuzione di predizione. Per la generazione di immagini, viene utilizzato un bootstrap senza classificatore.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Possible_extensions\"><\/span>Possibili estensioni<span class=\"ez-toc-section-end\"><\/span><\/h3>\n\n\n\n<p>Per la comprensione multimodale, 1) si potrebbe scegliere un codificatore visivo pi\u00f9 forte e 2) si potrebbero utilizzare tecniche dinamiche ad alta risoluzione;<\/p>\n\n\n\n<p>Per la generazione di visioni, 1) si potrebbero scegliere codificatori a grana pi\u00f9 fine, 2) utilizzare funzioni di perdita specificamente progettate per la generazione di visioni e 3) combinare attenzione causale e metodi paralleli;<\/p>\n\n\n\n<p>Pi\u00f9 modalit\u00e0, con la possibilit\u00e0 di integrare nuvole di punti 3D, tattili, EEG e altri input per le modalit\u00e0 di perdita;<\/p>\n\n\n\n<h2 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Janus-Pro_Upgrade\"><\/span><a href=\"https:\/\/huggingface.co\/deepseek-ai\/Janus-Pro-7B\" target=\"_blank\" rel=\"noreferrer noopener nofollow\">Aggiornamento Janus-Pro<\/a><span class=\"ez-toc-section-end\"><\/span><\/h2>\n\n\n\n<p>Con dati di addestramento limitati e una capacit\u00e0 del modello relativamente piccola (1B), Janus \u00e8 carente in alcuni aspetti, come la scarsa rappresentazione della generazione di immagini in presenza di indicazioni brevi e la qualit\u00e0 incoerente della generazione da testo a immagine.L'architettura di Janus-Pro \u00e8 la stessa di Janus, come si pu\u00f2 vedere nella figura seguente:<\/p>\n\n\n\n<figure class=\"wp-block-image\"><img decoding=\"async\" src=\"https:\/\/rmy9ct2fln.feishu.cn\/space\/api\/box\/stream\/download\/asynccode\/?code=NDY0ZWM0NTJiOTNlYTE4MWI4NmMwNGE4Mjc3NmYyMDJfc1FEMHVOMHo1OUM0ZVhoakJtU1lZQXdZNTd4NVFXRzhfVG9rZW46RjJrTGI3VVlqb0IxS3N4aHVVN2NxUWxJbnZkXzE3MzgyNDIwMzc6MTczODI0NTYzN19WNA\" alt=\"\"\/><\/figure>\n\n\n\n<h3 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Main_Improvements\"><\/span>Miglioramenti principali<span class=\"ez-toc-section-end\"><\/span><\/h3>\n\n\n\n<h4 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Training_Strategy\"><\/span>Strategia di formazione<span class=\"ez-toc-section-end\"><\/span><\/h4>\n\n\n\n<p>Fase 1: Aumentare il numero di fasi di addestramento e addestrare completamente su ImageNet;<\/p>\n\n\n\n<p>Fase 2: non si usa pi\u00f9 ImageNet, ma si usano direttamente i normali dati testo-immagine per l'addestramento;<\/p>\n\n\n\n<p>Fase 3: modificare i rapporti dei set di dati nel processo di messa a punto, cambiando il rapporto tra dati multimodali, dati di testo semplice e dati di testo-immagine da 7:3:10 a 5:1:4;<\/p>\n\n\n\n<h4 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Data_Scale\"><\/span>Scala dati<span class=\"ez-toc-section-end\"><\/span><\/h4>\n\n\n\n<p>Comprensione multimodale<\/p>\n\n\n\n<p>Fase 2: aggiunta di 90 milioni di campioni, tra cui YFCC per la didascalia delle immagini e Doc-matrix per la comprensione di tabelle e grafici;<\/p>\n\n\n\n<p>Fase 3: Aggiunta di set di dati supplementari di DeepSeek-VL2, come la comprensione di MEME;<\/p>\n\n\n\n<p>Generazione visiva: i dati del mondo reale possono essere di scarsa qualit\u00e0, con conseguente instabilit\u00e0 della generazione di testo-immagine e scarsa resa estetica; Janus-Pro utilizza 72 milioni di campioni di dati estetici sintetici, con una fase di pre-addestramento uniforme (Fase 2) con un rapporto 1:1 tra dati reali e dati sintetici;<\/p>\n\n\n\n<h4 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Model_Scale\"><\/span>Modello in scala<span class=\"ez-toc-section-end\"><\/span><\/h4>\n\n\n\n<p>Scala dei parametri del modello a 7 miliardi di parametri;<\/p>\n\n\n\n<h3 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Experimental_details\"><\/span>Dettagli sperimentali<span class=\"ez-toc-section-end\"><\/span><\/h3>\n\n\n\n<p>Rispetto a Janus, i dettagli degli esperimenti Janus-Pro sono sostanzialmente gli stessi. Al contrario, il modello a parametri pi\u00f9 ampi ha utilizzato pi\u00f9 nodi del cluster (da 16 a 32).<\/p>\n\n\n\n<figure class=\"wp-block-image\"><img decoding=\"async\" src=\"https:\/\/rmy9ct2fln.feishu.cn\/space\/api\/box\/stream\/download\/asynccode\/?code=NDM1YTM1ZDliNDUwYzAzNzg4MTNiNjUzYWZlZjVhZjhfZGI5ZWloREhYV29OZUxiaEVFc0dhN1dMTDhGdG5ZSnNfVG9rZW46STA0amJtbVlhb0NySk94NkRKNmNqNDVybmdiXzE3MzgyNDIwMzc6MTczODI0NTYzN19WNA\" alt=\"\"\/><\/figure>\n\n\n\n<p>Janus-Pro iperparametri di formazione<\/p>\n\n\n\n<h3 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Insufficient\"><\/span>Insufficiente<span class=\"ez-toc-section-end\"><\/span><\/h3>\n\n\n\n<p>Per la comprensione multimodale, la risoluzione dell'input \u00e8 limitata a 384\u00d7384, il che influisce sulle prestazioni dei compiti visivi a grana fine. Per la generazione da testo a immagine, la bassa risoluzione comporta una mancanza di dettagli nei risultati generati.<\/p>","protected":false},"excerpt":{"rendered":"<p>Messaggio da portare a casa: Janus \u00e8 un modello di comprensione e generazione multimodale semplice, unificato ed estensibile che disaccoppia la comprensione multimodale e la codifica visiva generata, attenuando i potenziali conflitti tra i due compiti. Pu\u00f2 essere esteso per incorporare ulteriori modalit\u00e0 di input in futuro. Janus-Pro si basa su queste fondamenta ottimizzando la strategia di addestramento (compreso l'aumento...<\/p>","protected":false},"author":2,"featured_media":684,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_kadence_starter_templates_imported_post":false,"_kad_post_transparent":"","_kad_post_title":"","_kad_post_layout":"","_kad_post_sidebar_id":"","_kad_post_content_style":"","_kad_post_vertical_padding":"","_kad_post_feature":"","_kad_post_feature_position":"","_kad_post_header":false,"_kad_post_footer":false,"footnotes":""},"categories":[1],"tags":[],"class_list":["post-746","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-uncategorized"],"_links":{"self":[{"href":"https:\/\/janusai.pro\/it\/wp-json\/wp\/v2\/posts\/746","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/janusai.pro\/it\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/janusai.pro\/it\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/janusai.pro\/it\/wp-json\/wp\/v2\/users\/2"}],"replies":[{"embeddable":true,"href":"https:\/\/janusai.pro\/it\/wp-json\/wp\/v2\/comments?post=746"}],"version-history":[{"count":1,"href":"https:\/\/janusai.pro\/it\/wp-json\/wp\/v2\/posts\/746\/revisions"}],"predecessor-version":[{"id":747,"href":"https:\/\/janusai.pro\/it\/wp-json\/wp\/v2\/posts\/746\/revisions\/747"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/janusai.pro\/it\/wp-json\/wp\/v2\/media\/684"}],"wp:attachment":[{"href":"https:\/\/janusai.pro\/it\/wp-json\/wp\/v2\/media?parent=746"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/janusai.pro\/it\/wp-json\/wp\/v2\/categories?post=746"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/janusai.pro\/it\/wp-json\/wp\/v2\/tags?post=746"}],"curies":[{"name":"parola chiave","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}