Tag budskabet med hjem: Janus er en enkel, samlet og udvidelig multimodal forståelses- og genereringsmodel, der afkobler multimodal forståelse og genereret visuel kodning, hvilket mindsker potentielle konflikter mellem de to opgaver. Den kan udvides til at omfatte flere inputmodaliteter i fremtiden. Janus-Pro bygger på dette fundament ved at optimere træningsstrategien (herunder øge antallet af træningstrin, justere dataforholdene osv.), tilføje flere data (herunder brug af syntetiske data osv.) og opskalere modelstørrelsen (til 7 milliarder parametre), hvilket fører til fremskridt i modellens multimodale forståelses- og tekst-til-billede-instruktionsoverholdelsesfunktioner.

Kodeadresse

Janus Pro-adresse

Janus-Pro er en avanceret version af det tidligere arbejde Janus, som specifikt omfatter (1) en optimeret træningsstrategi, (2) udvidede træningsdata og (3) større modelstørrelser. Med disse forbedringer gør Janus-Pro betydelige fremskridt inden for multimodal forståelse og overholdelse af tekst-til-billede-instruktioner, samtidig med at den forbedrer stabiliteten af tekst-til-billede-generering. Lad os gennemgå Janus, før vi pakker Janus-Pro ud.

Gennemgang af Janus

Forgængeren Janus er en autoregressiv ramme for forenet multimodal forståelse og generering, som bruges til at afkoble visuel kodning til forenet multimodal forståelse og generering. Til multimodal forståelse følger designet typisk LLaVA og bruger visuelle kodere som en bro, der gør det muligt for store sprogmodeller at forstå billeder. Til generering er det normalt baseret på diffusionsmodeller, og nogle er baseret på autoregressive metoder. Nogle tilgange forsøger at bruge en enkelt Transformer til at forene de multimodale forståelses- og genereringsopgaver, som typisk bruger en enkelt visuel koder til at behandle inputtet fra begge opgaver.

Der er dog forskelle i de repræsentationer, der kræves til multimodale forståelses- og genereringsopgaver. I den multimodale forståelsesopgave sigter den visuelle koder mod at udtrække semantiske oplysninger på højt niveau (f.eks. objektkategorier eller visuelle attributter), og output involverer ikke kun udtrækning af oplysninger fra billedet, men også komplekse semantiske ræsonnementer, hvor koderen primært fokuserer på højdimensionelle semantiske repræsentationer. Generationsopgaven handler primært om at generere lokale detaljer og opretholde global konsistens i billedet, hvilket kræver lavdimensionelle kodede repræsentationer af rumlige strukturer og teksturdetaljer. At forene repræsentationerne af begge opgaver i det samme rum kan føre til konflikter.

Janus indeholder 2 uafhængige visuelle kodningsstier til multimodal forståelse og generering og giver to fordele: 1) mindsker konflikter, der stammer fra de forskellige granularitetskrav til multimodal forståelse og generering, og 2) er fleksibel og skalerbar, idet den afkobles, så både forståelses- og genereringsopgaverne kan kodes ved hjælp af avancerede kodningsteknikker, der er specifikke for deres domæner, og i fremtiden kan fodres med punktskyer, EEG-signaler eller lyddata og behandles ved hjælp af en samlet I fremtiden kan punktskyer, EEG-signaler eller lyddata indlæses og behandles ved hjælp af en samlet Transformer.

Til tekstforståelse konverteres tekst til diskrete ID'er ved hjælp af LLM's indbyggede Tokenizer;

Til multimodal forståelse udvindes højdimensionelle semantiske funktioner i billederne ved hjælp af SigLIP-kodere (forfatterens note: Cosmos bruger også SigLIP-kodere i afsnittet Guardrails), og de udvundne funktioner kortlægges i LLM's tekstfunktionsrum ved hjælp af Adaptor (2-lags MLP);

Den lange side blev justeret til 384 pixels, og den korte side blev udfyldt til 384 pixels ved hjælp af RGB(127, 127, 127);

Til visuel generering blev billedet konverteret til diskrete ID'er ved hjælp af VQ Tokenizer, og hvert ID blev kortlagt i det tekstuelle funktionsrum i LLM ved hjælp af Adaptor (2-lags MLP);

Korte kanter blev ændret til 384 pixels, og lange kanter blev beskåret til 384 pixels;

Den samlede træning blev udført ved hjælp af 16 noder, der hver indeholdt 8 Nvidia A100 GPU'er;

For både visuel generering og multimodale forståelsesopgaver er billedfunktionssekvenserne og tekstfunktionssekvenserne knyttet sammen som input til LLM (DeepSeek-LLM 1.3B bruges i teksten);

Det indbyggede forudsigelseshoved i LLM bruges til tekstforudsigelser i både den rene tekstforståelse og multimodale forståelsesopgaver, mens et tilfældigt initialiseret forudsigelseshoved bruges til billedforudsigelser i den visuelle genereringsopgave. Hele modellen følger en autoregressiv ramme uden behov for specialdesignede opmærksomhedsmasker.

Janus-træning er opdelt i 3 faser:

Fase 1

Togadapter og billedhoved at skabe forbindelser mellem sproglige og visuelle elementer i indlejringsrummet, så LLM kan forstå enheder i billedet og have indledende visuelle genereringsfunktioner;

For multimodal forståelse skal du bruge 1,25 millioner parrede billedtekstdata fra SHareGPT4V i formatet: ;

Til visuel generering ved hjælp af 1,2 millioner prøver fra ImageNet1k i formatet: ;

Fase 2

Fælles fortræningVi bruger et multimodalt korpus til forenet prætræning for at lære multimodal forståelse og generering. Almindelige tekstdata, multimodale forståelsesdata og visuelle genereringsdata bruges i denne fase. Simpel visuel genereringstræning ved hjælp af ImageNet-1k, efterfulgt af brugen af generiske tekst-til-billed-data for at forbedre den visuelle generering i modellens åbne domæne;

Almindelige tekstdata: DeepSeek-LLM prætrænet korpus;

Sammenflettede billede-tekst-data: WikiHow- og WIT-datasæt;

Billedtekstdata: Billeder fra flere kilder og omskrevet nogle af billederne ved hjælp af open source multimodale modeller, med data formateret som Q&A-par, f.eks. Beskriv billedet i detaljer.;

Tabel- og grafikdata: tilsvarende tabel- og grafikdata fra DeepSeek-VL i formatet ;

Visuelt genererede data: billedtekstpar fra flere datasæt og 2 millioner interne data;

Under træningen er det kun den første sætning i billedteksten, der bruges tilfældigt med en sandsynlighed på 25%;

ImageNet-prøver vises kun i de første 120K træningstrin, mens billeder fra andre datasæt vises i de efterfølgende 60K trin;

Fase 3

Overvåget finjustering, hvor prætrænede modeller finjusteres ved hjælp af data om finjustering af instruktioner for at forbedre deres evne til at følge instruktioner og dialog. Finjuster alle parametre undtagen den genererende koder. Maskering af system- og brugersignaler, mens svarene overvåges. For at sikre, at Janus er dygtig til både multimodal forståelse og generering, finjusteres modellerne ikke separat til specifikke opgaver. I stedet bruger vi en blanding af rene tekstdialogdata, multimodale forståelsesdata og visuelle genereringsdata for at sikre alsidighed i en række forskellige scenarier;

Tekstforståelse: bruger data fra specifikke kilder;

Multimodal forståelse: Brug af data fra flere kilder til at tilpasse undervisningen;

Visuel generering: ved hjælp af en delmængde af billede-tekst-par fra nogle af fase II-datasættene samt 4 millioner interne data;

Dataformatet er: Bruger: \n Assistent: ;

Mål for uddannelse

Janus er en autoregressiv model, der er trænet ved hjælp af en cross-entropy tabsfunktion, for almindelig tekstforståelse og multimodale forståelsesopgaver beregnes tabet på tekstsekvensen. Til visuelle genereringsopgaver beregnes tabet kun på billedsekvensen. For at holde designet enkelt tildeles der ikke forskellige tabsvægte til de forskellige opgaver.

Ræsonnement

Ved hjælp af den næste metode til forudsigelse af leksikalske elementer, til forståelse af almindelig tekst og multimodal forståelse, udvælges leksikalske elementer sekventielt fra forudsigelsesfordelingen. Til billedgenerering bruges en klassifikationsløs bootstrap.

Mulige udvidelser

Til multimodal forståelse kunne man 1) vælge en stærkere visuel koder, og 2) bruge dynamiske teknikker med høj opløsning;

Til visionsgenerering kan man 1) vælge mere finkornede kodere, 2) bruge tabsfunktioner, der er specielt designet til visionsgenerering, og 3) kombinere kausal opmærksomhed og parallelle metoder;

Flere modaliteter med mulighed for at integrere 3D-punktskyer, haptik, EEG og andre input til tabsmodaliteter;

Janus-Pro-opgradering

Med begrænsede træningsdata og relativt lille modelkapacitet (1B) er Janus mangelfuld i nogle aspekter, såsom dårlig repræsentation af billedgenerering under korte signaler og inkonsekvent kvalitet af tekst-til-billede-generering. Janus-Pro's arkitektur er den samme som Janus', hvilket kan ses i figuren nedenfor:

Vigtigste forbedringer

Træningsstrategi

Trin 1: Øg antallet af træningstrin, og træn fuldt ud på ImageNet;

Fase 2: Brug ikke længere ImageNet, brug direkte almindelige tekst-til-billed-data til træning;

Trin 3: Ændre datasætforholdene i finjusteringsprocessen ved at ændre forholdet mellem multimodale data, almindelige tekstdata og tekst-til-billed-data fra 7:3:10 til 5:1:4;

Data-skala

Multimodal forståelse

Fase 2: Tilføj 90 millioner eksempler, herunder YFCC til billedtekstning og Doc-matrix til forståelse af tabel- og diagramdokumenter;

Trin 3: Tilføj DeepSeek-VL2 yderligere datasæt såsom MEME-forståelse;

Visuel generering: Data fra den virkelige verden kan være af dårlig kvalitet, hvilket resulterer i ustabil tekst-til-billede-generering og dårligt æstetisk output. Janus-Pro bruger 72 millioner eksempler på syntetiske æstetiske data med en ensartet prætræningsfase (fase 2) med et forhold på 1:1 mellem reelle og syntetiske data;

Modelskala

Skaler modelparametre til 7 milliarder parameterskala;

Eksperimentelle detaljer

Sammenlignet med Janus er detaljerne i Janus-Pro-eksperimenterne stort set de samme. I modsætning hertil brugte modellen med større parametre flere klyngenoder (16 til 32).

Janus-Pro træningshyperparametre

Utilstrækkelig

Til multimodal forståelse er inputopløsningen begrænset til 384×384, hvilket påvirker ydeevnen på finkornede visuelle opgaver. Til tekst-til-billede-generering resulterer den lave opløsning i en mangel på detaljer i de genererede resultater.

Lignende indlæg

Skriv et svar

Din e-mailadresse vil ikke blive publiceret. Krævede felter er markeret med *