Poselství domů: Janus je jednoduchý, jednotný a rozšiřitelný model multimodálního porozumění a generování, který odděluje multimodální porozumění a generované vizuální kódování, čímž zmírňuje potenciální konflikty mezi těmito dvěma úkoly. V budoucnu jej lze rozšířit o další vstupní modality. Janus-Pro staví na tomto základu optimalizací tréninkové strategie (včetně zvýšení počtu tréninkových kroků, úpravy poměrů dat atd.), přidáním dalších dat (včetně použití syntetických dat atd.) a zvětšením velikosti modelu (na 7 miliard parametrů), což vede k pokroku ve schopnostech modelu v oblasti multimodálního porozumění a dodržování instrukcí pro převod textu na obraz.
Janus-Pro je pokročilou verzí předchozí práce Janus, konkrétně zahrnuje (1) optimalizovanou tréninkovou strategii, (2) rozšířená tréninková data a (3) větší velikosti modelů. Díky těmto vylepšením dosahuje Janus-Pro významného pokroku ve schopnostech multimodálního porozumění a dodržování instrukcí pro převod textu na obraz a zároveň zvyšuje stabilitu generování převodu textu na obraz. Než se pustíme do rozbalování nástroje Janus-Pro, projděme si program Janus.
Recenze Janus
Předchůdce Janus je autoregresní rámec pro sjednocené multimodální porozumění a generování, který se používá k oddělení vizuálního kódování pro sjednocené multimodální porozumění a generování. Pro multimodální porozumění je typický návrh podle LLaVA, který používá vizuální kodéry jako most umožňující velkým jazykovým modelům porozumět obrazům. Pro generování je obvykle založen na difuzních modelech a některé jsou založeny na autoregresních metodách. Některé přístupy se pokoušejí využít jediný transformátor, který se snaží sjednotit multimodální úlohy porozumění a generování, a který obvykle využívá jediný vizuální kodér ke zpracování vstupů obou úloh.
Existují však rozdíly v reprezentacích potřebných pro multimodální úlohy porozumění a generování. V úloze multimodálního porozumění se vizuální kodér zaměřuje na extrakci sémantických informací vysoké úrovně (např. kategorií objektů nebo vizuálních atributů) a výstup zahrnuje nejen extrakci informací z obrazu, ale také komplexní sémantické uvažování, přičemž kodér se zaměřuje především na vysokodimenzionální sémantické reprezentace. Úloha generování se zabývá především generováním lokálních detailů a udržováním globální konzistence v obraze, a vyžaduje tedy nízkorozměrné kódované reprezentace prostorových struktur a texturních detailů. Sjednocení reprezentací obou úloh ve stejném prostoru může vést ke konfliktům.
Janus obsahuje 2 nezávislé cesty vizuálního kódování pro multimodální porozumění a generování a přináší dvě výhody: 1) zmírňuje konflikty plynoucí z rozdílných požadavků na granularitu multimodálního porozumění a generování a 2) je flexibilní a škálovatelný, odděluje se, takže úlohy porozumění i generování lze kódovat pomocí nejmodernějších kódovacích technik specifických pro jejich domény a v budoucnu do nich lze vkládat mračna bodů, EEG signály nebo zvuková data a zpracovávat je pomocí jednotného V budoucnu lze do nich vkládat mračna bodů, EEG signály nebo zvuková data a zpracovávat je pomocí jednotného transformátoru.
Pro porozumění textu je text převeden na diskrétní ID pomocí integrovaného tokenizéru LLM;
Pro multimodální porozumění jsou v obrazech extrahovány vysokodimenzionální sémantické rysy pomocí SigLIP kodérů (pozn. autora: Cosmos také používá SigLIP kodéry v části Guardrails) a extrahované rysy jsou mapovány do prostoru textových rysů LLM pomocí Adaptoru (dvouvrstvý MLP);
Dlouhá strana byla upravena na 384 pixelů a krátká strana byla vyplněna na 384 pixelů pomocí RGB(127, 127, 127);
Pro vizuální generování byl obraz převeden na diskrétní ID pomocí Tokenizátoru VQ a každé ID bylo mapováno do prostoru textových příznaků LLM pomocí Adaptoru (dvouvrstvý MLP);
Krátké okraje byly zmenšeny na 384 pixelů a dlouhé okraje byly oříznuty na 384 pixelů;
Celkové trénování probíhalo na 16 uzlech, z nichž každý obsahoval 8 grafických procesorů Nvidia A100;
Pro úlohy vizuálního generování i multimodálního porozumění jsou sekvence obrazových a textových prvků spojeny dohromady jako vstup do LLM (v textu je použit DeepSeek-LLM 1.3B);
Integrovaná predikční hlava LLM se používá pro predikce textu v úlohách porozumění čistému textu i multimodálnímu porozumění, zatímco náhodně inicializovaná predikční hlava se používá pro predikce obrazu v úloze vizuálního generování. Celý model se drží autoregresního rámce bez potřeby speciálně navržených masek pozornosti.
Školení Janus je rozdělena do 3 fází:
Fáze 1
Adaptér vlaku a obrazová hlava vytvářet spojení mezi jazykovými a vizuálními prvky v prostoru vložení, což umožňuje LLM porozumět entitám v obraze a mít počáteční schopnosti vizuálního generování;
Pro multimodální porozumění použijte 1,25 milionu dat párových popisků obrázků a textů z SHareGPT4V ve formátu: ;
Pro vizuální generování použijte 1,2 milionu vzorků z ImageNet1k ve formátu: ;
Fáze 2
Jednotné předškolení, s využitím multimodálního korpusu pro jednotný předvýcvik k učení multimodálního porozumění a generování. V této fázi jsou použita data prostého textu, data multimodálního porozumění a data vizuálního generování. Jednoduché trénování vizuálního generování pomocí ImageNet-1k, po kterém následuje použití obecných textově-obrázkových dat k posílení vizuálního generování v otevřené doméně modelu;
Textová data: předtrénovaný korpus DeepSeek-LLM;
Prokládaná obrazová a textová data: Datové sady WikiHow a WIT;
Údaje v titulku obrázku: Popis obrázku podrobněji.: Obrázky z více zdrojů a některé z nich byly opatřeny novými titulky pomocí multimodálních modelů s otevřeným zdrojem, přičemž data byla formátována jako dvojice otázek a odpovědí;
Tabulková a grafická data: odpovídající tabulková a grafická data z DeepSeek-VL ve formátu ;
Vizuálně generovaná data: dvojice obrázek-titulek z více souborů dat a 2 miliony interních dat;
Během tréninku je náhodně použita pouze první věta titulku s pravděpodobností 25%;
Vzorky ze sítě ImageNet se objevují pouze v počátečních 120 tisících krocích trénování, přičemž obrázky z jiných datových sad se objevují v následujících 60 tisících krocích;
Fáze 3
Dolaďování pod dohledem, kde jsou předtrénované modely dolaďovány pomocí dat pro dolaďování instrukcí, aby se zvýšila jejich schopnost sledovat instrukce a dialogy. Dolaďte všechny parametry kromě generujícího kodéru. Maskování systémových a uživatelských podnětů při dohledu nad odpověďmi. Aby bylo zajištěno, že Janus má zběhlost v multimodálním porozumění i generování, nejsou modely dolaďovány zvlášť pro konkrétní úlohy. Místo toho používáme kombinaci dat z dialogů pouze s textem, dat z multimodálního porozumění a dat z vizuálního generování, abychom zajistili univerzálnost v různých scénářích;
Porozumění textu: používá údaje z konkrétních zdrojů;
Multimodální porozumění: využití dat z více zdrojů pro vyladění výuky;
Vizuální generování: použití podmnožiny dvojic obrázek-text z některých datových souborů fáze II a 4 milionů interních dat;
Formát dat je následující: Uživatel: \n Asistent: ;
Cíle školení
Janus je autoregresní model vycvičený pomocí ztrátové funkce křížové entropie, pro úlohy porozumění prostému textu a multimodálnímu porozumění se ztráta počítá v sekvenci textu. Pro úlohy vizuálního generování se ztráta počítá pouze na sekvenci obrázků. Aby byl návrh jednoduchý, nejsou různým úlohám přiřazeny různé ztrátové váhy.
Zdůvodnění
Při použití další metody predikce lexikálních prvků pro porozumění prostému textu a multimodálnímu porozumění se lexikální prvky postupně vybírají z predikčního rozdělení. Pro generování obrázků se používá bootstrap bez klasifikátoru.
Možná rozšíření
Pro multimodální porozumění by bylo možné 1) zvolit silnější vizuální kódování a 2) použít dynamické techniky s vysokým rozlišením;
Pro generování vidění by bylo možné zvolit 1) jemnější kódovače, 2) použití ztrátových funkcí speciálně navržených pro generování vidění a 3) kombinaci kauzální pozornosti a paralelních metod;
Více modalit s možností integrace 3D mračen bodů, haptiky, EEG a dalších vstupů pro ztrátové modality;
Upgrade Janus-Pro
Vzhledem k omezeným trénovacím datům a relativně malé kapacitě modelu (1B) má Janus v některých ohledech nedostatky, jako je špatná reprezentace generování obrázků při krátkých narážkách a nekonzistentní kvalita generování textu na obrázek.Architektura Janus-Pro je stejná jako architektura Janus, což je vidět na obrázku níže:
Hlavní vylepšení
Strategie školení
Fáze 1: Zvyšte počet kroků trénování a plně trénujte na síti ImageNet;
Fáze 2: Již nepoužíváme ImageNet, pro trénování používáme přímo běžná textově-obrázková data;
Fáze 3: Upravte poměry souborů dat v procesu jemného doladění změnou poměru multimodálních dat, prostých textových dat a textových dat k obrazovým datům ze 7:3:10 na 5:1:4;
Měřítko dat
Multimodální porozumění
Fáze 2: Přidání 90 milionů vzorků, včetně YFCC pro popisky obrázků a Doc-matrix pro porozumění dokumentům s tabulkami a grafy;
Fáze 3: Přidání dalších datových sad DeepSeek-VL2, například porozumění MEME;
Vizuální generování: reálná data mohou mít nízkou kvalitu, což vede k nestabilnímu generování textu na obraz a špatnému estetickému výstupu, Janus-Pro používá 72 milionů vzorků syntetických estetických dat s jednotnou předtréninkovou fází (fáze 2) s poměrem reálných a syntetických dat 1:1;
Modelové měřítko
Škálování parametrů modelu na stupnici 7 miliard parametrů;
Podrobnosti o experimentu
V porovnání se systémem Janus jsou detaily experimentů s Janus-Pro v podstatě stejné. Na rozdíl od modelu s většími parametry bylo použito více uzlů clusteru (16 až 32).
Janus-Pro tréninkové hyperparametry
Nedostatečné
Pro multimodální porozumění je vstupní rozlišení omezeno na 384×384, což ovlivňuje výkon při jemných vizuálních úlohách. Při generování textu na obrázek má nízké rozlišení za následek nedostatek detailů v generovaných výsledcích.