Mesaj de luat acasă: Janus este un model simplu, unificat și extensibil de înțelegere și generare multimodală care decuplează înțelegerea multimodală și codarea vizuală generată, atenuând potențialele conflicte dintre cele două sarcini. Acesta poate fi extins pentru a încorpora modalități de intrare suplimentare în viitor. Janus-Pro se bazează pe această fundație prin optimizarea strategiei de formare (inclusiv creșterea numărului de etape de formare, ajustarea rapoartelor de date etc.), adăugarea mai multor date (inclusiv utilizarea de date sintetice etc.) și mărirea dimensiunii modelului (la 7 miliarde de parametri), ceea ce conduce la progrese în capacitățile de înțelegere multimodală și de respectare a instrucțiunilor text-imagine ale modelului.
Janus-Pro este o versiune avansată a lucrării anterioare Janus, în special, incluzând (1) o strategie de formare optimizată, (2) date de formare extinse și (3) dimensiuni mai mari ale modelului. Cu aceste îmbunătățiri, Janus-Pro face progrese semnificative în capacitățile de înțelegere multimodală și de respectare a instrucțiunilor text-imagine, îmbunătățind în același timp stabilitatea generării text-imagine. Înainte de a detalia Janus-Pro, să trecem în revistă Janus.
Revizuirea Janus
Predecesorul Janus este un cadru autoregresiv pentru înțelegerea și generarea multimodală unificată, care este utilizat pentru decuplarea codificării vizuale pentru înțelegerea și generarea multimodală unificată. Pentru înțelegerea multimodală, proiectarea urmează de obicei LLaVA, folosind codificatorii vizuali ca o punte pentru a permite modelelor lingvistice mari să înțeleagă imaginile. Pentru generare, aceasta se bazează de obicei pe modele de difuzie, iar unele se bazează pe metode autoregresive. Unele abordări încearcă să utilizeze un singur transformator pentru a încerca să unifice sarcinile de înțelegere și generare multimodală, care utilizează de obicei un singur codificator vizual pentru a procesa intrările ambelor sarcini.
Cu toate acestea, există diferențe în reprezentările necesare pentru sarcinile de înțelegere și generare multimodală. În sarcina de înțelegere multimodală, codificatorul vizual urmărește să extragă informații semantice de nivel înalt (de exemplu, categorii de obiecte sau atribute vizuale), iar ieșirea implică nu numai extragerea informațiilor din imagine, ci și raționamentul semantic complex, codificatorul concentrându-se în principal pe reprezentări semantice înalt-dimensionale. Sarcina de generare se referă în principal la generarea detaliilor locale și la menținerea coerenței globale a imaginii, necesitând astfel reprezentări codate bidimensionale reduse ale structurilor spațiale și ale detaliilor texturii. Unificarea reprezentărilor ambelor sarcini în același spațiu poate duce la conflicte.
Janus conține 2 căi independente de codificare vizuală pentru înțelegerea și generarea multimodală și aduce două beneficii: 1) atenuează conflictele care decurg din cerințele diferite de granularitate ale înțelegerii și generării multimodale și 2) este flexibil și scalabil, decuplabil, astfel încât atât sarcinile de înțelegere, cât și cele de generare pot fi codificate utilizând tehnici de codificare de ultimă oră specifice domeniilor lor, iar în viitor pot fi alimentate cu nori de puncte, semnale EEG sau date audio și prelucrate utilizând un transformator unificat.
Pentru înțelegerea textului, textul este convertit în ID-uri discrete utilizând Tokenizer-ul încorporat al LLM;
Pentru înțelegerea multimodală, caracteristicile semantice înalt-dimensionale din imagini sunt extrase utilizând codificatoare SigLIP (nota autorului: Cosmos utilizează, de asemenea, codificatoare SigLIP în secțiunea Guardrails), iar caracteristicile extrase sunt mapate în spațiul caracteristicilor textului LLM utilizând Adaptor (MLP cu 2 straturi);
Partea lungă a fost ajustată la 384 de pixeli, iar partea scurtă a fost umplută la 384 de pixeli folosind RGB(127, 127, 127);
Pentru generarea vizuală, imaginea a fost convertită în ID-uri discrete utilizând VQ Tokenizer, iar fiecare ID a fost mapat în spațiul caracteristic textual al LLM utilizând Adaptor (MLP cu 2 straturi);
Marginile scurte au fost redimensionate la 384 pixeli, iar marginile lungi au fost decupate la 384 pixeli;
Pregătirea generală a fost efectuată utilizând 16 noduri, fiecare conținând 8 GPU Nvidia A100;
Atât pentru generarea vizuală, cât și pentru sarcinile de înțelegere multimodală, secvențele de caracteristici ale imaginii și secvențele de caracteristici ale textului sunt legate împreună ca intrare pentru LLM (DeepSeek-LLM 1.3B este utilizat în text);
Capul de predicție încorporat al LLM este utilizat pentru predicțiile de text atât în sarcinile de înțelegere a textului pur, cât și în cele de înțelegere multimodală, în timp ce un cap de predicție inițializat aleatoriu este utilizat pentru predicțiile de imagine în sarcina de generare vizuală. Întregul model aderă la un cadru autoregresiv fără a fi nevoie de măști de atenție special concepute.
Formare Janus este împărțit în 3 faze:
Faza 1
Adaptor de tren și cap de imagine să creeze conexiuni între elementele lingvistice și vizuale în spațiul de încorporare, permițând LLM să înțeleagă entitățile din imagine și să aibă capacități inițiale de generare vizuală;
Pentru înțelegerea multimodală, folosiți 1,25 milioane de date cu didascalii împerecheate imagine-text din SHareGPT4V în formatul: ;
Pentru generarea vizuală, folosind 1,2 milioane de probe din ImageNet1k în formatul: ;
Faza 2
Preinstruire unificată, folosind un corpus multimodal pentru o pre-antrenare unificată pentru a învăța înțelegerea și generarea multimodală. În această fază sunt utilizate date de text simplu, date de înțelegere multimodală și date de generare vizuală. Formare simplă pentru generarea vizuală utilizând ImageNet-1k, urmată de utilizarea datelor generice text-imagine pentru a îmbunătăți generarea vizuală în domeniul deschis al modelului;
Date text simplu: Corpus pre-antrenat DeepSeek-LLM;
Date intercalate imagine-text: Seturile de date WikiHow și WIT;
Date privind legendele imaginilor: Imagini din mai multe surse și redenumirea unora dintre imagini folosind modele multimodale din surse deschise, cu date formatate ca perechi Q&A, de exemplu Denumește imaginea în detaliu.
Date tabulare și grafice: date tabulare și grafice corespunzătoare din DeepSeek-VL în formatul ;
Date generate vizual: perechi imagine-capitol din mai multe seturi de date și 2 milioane de date interne;
În timpul antrenamentului, doar prima propoziție din legendă este utilizată aleatoriu cu o probabilitate de 25%;
Eșantioanele ImageNet apar doar în primii 120K pași de formare, iar imaginile din alte seturi de date apar în următorii 60K pași;
Faza 3
Reglare fină supravegheată, în care modelele pre-antrenate sunt ajustate cu ajutorul datelor de ajustare a instrucțiunilor pentru a spori capacitatea acestora de a urma instrucțiunile și dialogul. Reglarea fină a tuturor parametrilor, cu excepția codificatorului generator. Mascarea indicațiilor sistemului și ale utilizatorului în timpul supravegherii răspunsurilor. Pentru a ne asigura că Janus are competență atât în înțelegerea multimodală, cât și în generare, modelele nu sunt ajustate separat pentru sarcini specifice. În schimb, folosim un amestec de date de dialog numai text, date de înțelegere multimodală și date de generare vizuală pentru a asigura versatilitatea într-o varietate de scenarii;
Înțelegerea textului: utilizează date din surse specifice;
Înțelegerea multimodală: utilizarea datelor din surse multiple pentru reglarea instrucției;
Generarea vizuală: utilizând un subset de perechi imagine-text din unele seturi de date din faza II, precum și 4 milioane de date interne;
Formatul datelor este: Utilizator: \n Asistent: ;
Obiective de formare
Janus este un model autoregresiv antrenat cu ajutorul unei funcții de pierdere de entropie încrucișată, pentru sarcinile de înțelegere a textului simplu și de înțelegere multimodală pierderea fiind calculată la secvența de text. Pentru sarcinile de generare vizuală, pierderea este calculată numai la secvența de imagini. Pentru a păstra simplitatea proiectului, nu sunt atribuite ponderi de pierdere diferite pentru diferitele sarcini.
Raționament
Folosind următoarea metodă de predicție a elementelor lexicale, pentru înțelegerea textului simplu și a înțelegerii multimodale, elementele lexicale sunt eșantionate secvențial din distribuția de predicție. Pentru generarea imaginilor, se utilizează un bootstrap fără clasificator.
Extinderi posibile
Pentru înțelegerea multimodală, 1) ar putea fi ales un codificator vizual mai puternic și 2) ar putea fi utilizate tehnici dinamice de înaltă rezoluție;
Pentru generarea vederii, 1) ar putea fi aleși codificatori mai fini, 2) utilizarea funcțiilor de pierdere concepute special pentru generarea vederii și 3) combinarea atenției cauzale și a metodelor paralele;
Mai multe modalități, cu capacitatea de a integra nori de puncte 3D, haptică, EEG și alte intrări pentru modalitățile de pierdere;
Actualizare Janus-Pro
Cu date de instruire limitate și o capacitate relativ mică a modelului (1B), Janus este deficitar în unele aspecte, cum ar fi reprezentarea slabă a generării de imagini sub indicii scurte și calitatea inconsistentă a generării textului în imagine.Arhitectura Janus-Pro este aceeași cu cea a lui Janus, care poate fi văzută în figura de mai jos:
Îmbunătățiri principale
Strategia de formare
Etapa 1: Creșterea numărului de etape de formare și formarea completă pe ImageNet;
Etapa 2: Nu se mai utilizează ImageNet, se utilizează direct date obișnuite text-imagine pentru instruire;
Etapa 3: Modificarea raporturilor seturilor de date în procesul de reglare fină prin schimbarea raportului dintre datele multimodale, datele text simplu și datele text-imagine de la 7:3:10 la 5:1:4;
Scala de date
Înțelegerea multimodală
Etapa 2: Adăugarea a 90 de milioane de mostre, inclusiv YFCC pentru subtitrarea imaginilor și Doc-matrix pentru înțelegerea documentelor tabelare și grafice;
Etapa 3: Adăugarea seturilor de date suplimentare DeepSeek-VL2, cum ar fi înțelegerea MEME;
Generarea vizuală: datele din lumea reală pot avea o calitate slabă, ceea ce duce la o generare instabilă a textului în imagine și la un rezultat estetic slab, Janus-Pro utilizează 72 de milioane de eșantioane de date estetice sintetice, cu o fază uniformă de preantrenare (etapa 2) de 1:1 raport între datele reale și datele sintetice;
Model la scară
Scala parametrilor modelului la o scară de 7 miliarde de parametri;
Detalii experimentale
Comparativ cu Janus, detaliile experimentelor Janus-Pro sunt practic aceleași. În schimb, modelul cu parametri mai mari a utilizat mai multe noduri de cluster (de la 16 la 32).
Janus-Pro hiperparametri de formare
Insuficient
Pentru înțelegerea multimodală, rezoluția de intrare este limitată la 384×384, afectând performanța în sarcinile vizuale fine. Pentru generarea text-imagine, rezoluția redusă duce la o lipsă de detalii în rezultatele generate.