Ta med dig meddelandet hem: Janus är en enkel, enhetlig och utbyggbar multimodal förståelse- och genereringsmodell som frikopplar multimodal förståelse och genererad visuell kodning, vilket mildrar potentiella konflikter mellan de två uppgifterna. Den kan utvidgas till att omfatta ytterligare modaliteter för inmatning i framtiden. Janus-Pro bygger vidare på denna grund genom att optimera träningsstrategin (inklusive att öka antalet träningssteg, justera datakvoterna etc.), lägga till mer data (inklusive användning av syntetiska data etc.) och skala upp modellstorleken (till 7 miljarder parametrar), vilket leder till framsteg i modellens multimodala förståelse och förmåga att följa text-till-bild-instruktioner.
Janus-Pro är en avancerad version av tidigare arbete Janus, specifikt, inklusive (1) en optimerad träningsstrategi, (2) utökade träningsdata och (3) större modellstorlekar. Med dessa förbättringar gör Janus-Pro betydande framsteg inom multimodal förståelse och förmåga att följa text-till-bild-instruktioner, samtidigt som stabiliteten i text-till-bild-generering förbättras. Innan vi packar upp Janus-Pro, låt oss granska Janus.
Granskning av Janus
Föregångaren Janus är ett autoregressivt ramverk för enhetlig multimodal förståelse och generering, som används för att frikoppla visuell kodning för enhetlig multimodal förståelse och generering. För multimodal förståelse följer designen vanligtvis LLaVA, där visuella kodare används som en bro för att göra det möjligt för stora språkmodeller att förstå bilder. För generering baseras den vanligtvis på diffusionsmodeller, och vissa baseras på autoregressiva metoder. Vissa metoder försöker använda en enda Transformer för att försöka förena multimodal förståelse och generering, vilket vanligtvis använder en enda visuell kodare för att bearbeta indata från båda uppgifterna.
Det finns dock skillnader i de representationer som krävs för multimodala förståelse- och genereringsuppgifter. I uppgiften multimodal förståelse syftar den visuella kodaren till att extrahera semantisk information på hög nivå (t.ex. objektkategorier eller visuella attribut), och resultatet innebär inte bara att extrahera information från bilden utan också komplexa semantiska resonemang, där kodaren främst fokuserar på högdimensionella semantiska representationer. Genereringsuppgiften handlar främst om att generera lokala detaljer och upprätthålla global konsistens i bilden, vilket kräver lågdimensionella kodade representationer av rumsliga strukturer och texturdetaljer. Att förena representationerna för båda uppgifterna i samma utrymme kan leda till konflikter.
Janus innehåller två oberoende visuella kodningsvägar för multimodal förståelse och generering, och ger två fördelar: 1) minskar konflikter som härrör från de olika granularitetskraven för multimodal förståelse och generering, och 2) är flexibel och skalbar, frikopplad så att både förståelsen och genereringsuppgifterna kan kodas med hjälp av toppmoderna kodningstekniker som är specifika för deras domäner, och i framtiden kan matas med punktmoln, EEG-signaler eller ljuddata och bearbetas med hjälp av en enhetlig I framtiden kan punktmoln, EEG-signaler eller ljuddata matas in och bearbetas med hjälp av en enhetlig Transformer.
För textförståelse konverteras text till diskreta ID:n med hjälp av LLM:s inbyggda Tokenizer;
För multimodal förståelse extraheras högdimensionella semantiska funktioner i bilderna med hjälp av SigLIP-kodare (författarens anmärkning: Cosmos använder också SigLIP-kodare i avsnittet Guardrails), och de extraherade funktionerna mappas till LLM:s textfunktionsutrymme med hjälp av Adaptor (2-lagers MLP);
Den långa sidan justerades till 384 pixlar och den korta sidan fylldes till 384 pixlar med RGB(127, 127, 127);
För visuell generering konverterades bilden till diskreta ID:n med hjälp av VQ Tokenizer, och varje ID mappades in i LLM:s textuella funktionsutrymme med hjälp av Adaptor (2-lagers MLP);
Korta kanter har skalats om till 384 pixlar och långa kanter har beskurits till 384 pixlar;
Den totala träningen utfördes med hjälp av 16 noder, var och en innehållande 8 Nvidia A100 GPU:er;
För både visuell generering och multimodal förståelse länkas sekvenserna med bildfunktioner och sekvenserna med textfunktioner samman som indata till LLM (DeepSeek-LLM 1.3B används i texten);
Det inbyggda prediktionshuvudet i LLM används för textprediktioner i både ren textförståelse och multimodal förståelse, medan ett slumpmässigt initialiserat prediktionshuvud används för bildprediktioner i den visuella genereringsuppgiften. Hela modellen följer ett autoregressivt ramverk utan behov av specialdesignade uppmärksamhetsmasker.
Janus utbildning är indelad i 3 faser:
Fas 1
Tågadapter och bildhuvud för att skapa kopplingar mellan språkliga och visuella element i inbäddningsrymden, så att LLM kan förstå enheter i bilden och ha inledande visuell genereringskapacitet;
För multimodal förståelse, använd 1,25 miljoner bild-text-parade bildtextdata från SHareGPT4V i formatet: ;
För visuell generering används 1,2 miljoner prov från ImageNet1k i formatet: ;
Fas 2
Enhetlig förutbildning, med hjälp av en multimodal korpus för enhetlig förträning för att lära sig multimodal förståelse och generering. I den här fasen används data för vanlig text, multimodal förståelse och visuell generering. Enkel träning av visuell generering med ImageNet-1k, följt av användning av generiska text-till-bild-data för att förbättra den visuella genereringen i modellens öppna domän;
Data i vanlig text: DeepSeek-LLM förutbildad korpus;
Interleaved bild-textdata: WikiHow- och WIT-dataset;
Data för bildtexter: Bilder från flera källor och ny bildtextning för vissa av bilderna med hjälp av multimodala modeller med öppen källkod, med data formaterade som Q&A-par, t.ex. Beskriv bilden i detalj.
Tabell- och grafiska data: motsvarande tabell- och grafiska data från DeepSeek-VL i formatet ;
Visuellt genererade data: bild-bildtextpar från flera dataset och 2 miljoner interna data;
Under träningen används endast den första meningen i bildtexten slumpmässigt med en sannolikhet på 25%;
ImageNet-prover visas endast i de första 120 000 träningsstegen, medan bilder från andra dataset visas i de följande 60 000 stegen;
Fas 3
Övervakad finjustering, där förtränade modeller finjusteras med hjälp av data för finjustering av instruktioner för att förbättra deras förmåga att följa instruktioner och dialog. Finjustera alla parametrar utom den genererande kodaren. Maskning av system- och användarsignaler under övervakning av svar. För att säkerställa att Janus behärskar både multimodal förståelse och generering finjusteras inte modellerna separat för specifika uppgifter. Istället använder vi en blandning av dialogdata med enbart text, multimodala förståelsedata och visuella genereringsdata för att säkerställa mångsidighet i en mängd olika scenarier;
Textförståelse: använder data från specifika källor;
Multimodal förståelse: att använda data från flera källor för att anpassa undervisningen;
Visuell generering: med hjälp av en delmängd av bild-textpar från några av fas II-dataseten samt 4 miljoner interna data;
Dataformatet är: Användare: \n Assistent: ;
Mål för utbildningen
Janus är en autoregressiv modell som tränas med hjälp av en cross-entropy-förlustfunktion, för förståelse av vanlig text och multimodala förståelseuppgifter beräknas förlusten på textsekvensen. För visuella genereringsuppgifter beräknas förlusten endast på bildsekvensen. För att hålla designen enkel tilldelas inga olika förlustvikter till de olika uppgifterna.
Resonemang
Med hjälp av prediktionsmetoden för nästa lexikala element, för förståelse av vanlig text och multimodal förståelse, samplas lexikala element sekventiellt från prediktionsfördelningen. För bildgenerering används en klassificeringsfri bootstrap.
Möjliga förlängningar
För multimodal förståelse kan 1) en starkare visuell kodare väljas och 2) dynamiska tekniker med hög upplösning användas;
För visionsgenerering kan man 1) välja mer finkorniga kodare, 2) använda förlustfunktioner som är särskilt utformade för visionsgenerering och 3) kombinera kausal uppmärksamhet och parallella metoder;
Fler modaliteter, med möjlighet att integrera 3D-punktmoln, haptik, EEG och andra ingångar för förlustmodaliteter;
Janus-Pro Uppgradering
Med begränsad utbildningsdata och relativt liten modellkapacitet (1B) är Janus bristfällig i vissa aspekter, till exempel dålig representation av bildgenerering under korta ledtrådar och inkonsekvent kvalitet på text-till-bild-generering. Janus-Pro-arkitekturen är densamma som Janus, vilket framgår av figuren nedan:
Huvudförbättringar
Strategi för utbildning
Steg 1: Öka antalet träningssteg och träna fullt ut på ImageNet;
Steg 2: Använd inte längre ImageNet, utan använd direkt vanlig text-till-bild-data för utbildning;
Steg 3: Ändra förhållandena för datasetet i finjusteringsprocessen genom att ändra förhållandet mellan multimodala data, ren textdata och text-till-bild-data från 7:3:10 till 5:1:4;
Data skala
Multimodal förståelse
Steg 2: Lägg till 90 miljoner exempel, inklusive YFCC för bildtextning och Doc-matrix för förståelse av tabell- och diagramdokument;
Steg 3: Lägg till DeepSeek-VL2 ytterligare dataset såsom MEME-förståelse;
Visuell generering: verkliga data kan innehålla dålig kvalitet, vilket resulterar i instabil text-till-bild-generering och dålig estetisk produktion, Janus-Pro använder 72 miljoner prover av syntetiska estetiska data, med en enhetlig förträningsfas (steg 2) med 1:1-förhållande mellan verkliga data och syntetiska data;
Modellskala
Skala modellparametrar till 7 miljarder parameterskala;
Experimentella detaljer
Jämfört med Janus är detaljerna i Janus-Pro-experimenten i princip desamma. Däremot använde modellen med större parametrar fler klusternoder (16 till 32).
Janus-Pro hyperparametrar för utbildning
Otillräcklig
För multimodal förståelse är inmatningsupplösningen begränsad till 384×384, vilket påverkar prestandan för finkorniga visuella uppgifter. För text-till-bild-generering resulterar den låga upplösningen i en brist på detaljer i de genererade resultaten.