Üzenet haza: A Janus egy egyszerű, egységes és bővíthető multimodális megértési és generálási modell, amely szétválasztja a multimodális megértést és a generált vizuális kódolást, enyhítve a két feladat közötti lehetséges konfliktusokat. A jövőben további bemeneti modalitások bevonásával bővíthető. Az Janus-Pro erre az alapra épít a képzési stratégia optimalizálásával (beleértve a képzési lépések számának növelését, az adatarányok beállítását stb.), több adat hozzáadásával (beleértve a szintetikus adatok használatát stb.) és a modell méretének növelésével (7 milliárd paraméterre), ami a modell multimodális megértési és szöveg-kép utasításkövetési képességeinek fejlődéséhez vezet.
Janus-Pro a Janus korábbi munkájának továbbfejlesztett változata, konkrétan: (1) optimalizált képzési stratégia, (2) kibővített képzési adatok és (3) nagyobb modellméretek. Ezekkel a fejlesztésekkel az Janus-Pro jelentős előrelépést tesz a multimodális megértés és a szöveg-kép utasításkövetési képességek terén, miközben a szöveg-kép generálás stabilitását is javítja. Mielőtt az Janus-Pro-t kipakolnánk, tekintsük át a Janust.
Janus felülvizsgálata
A Janus elődje egy autoregresszív keretrendszer az egységes multimodális megértéshez és generáláshoz, amely a vizuális kódolás szétválasztására szolgál az egységes multimodális megértéshez és generáláshoz. A multimodális megértéshez a tervezés jellemzően a LLaVA-t követi, a vizuális kódolókat hídként használva, hogy a nagy nyelvi modellek képeket is megértsenek. A generáláshoz általában diffúziós modelleken alapul, egyesek pedig autoregresszív módszereken. Egyes megközelítések egyetlen transzformátorral próbálják egyesíteni a multimodális megértési és generálási feladatokat, amely jellemzően egyetlen vizuális kódolót használ mindkét feladat bemeneteinek feldolgozására.
A multimodális megértési és generálási feladatokhoz szükséges reprezentációk között azonban különbségek vannak. A multimodális megértési feladatban a vizuális kódoló célja a magas szintű szemantikai információk (pl. tárgykategóriák vagy vizuális attribútumok) kinyerése, a kimenet pedig nemcsak a képből való információ kinyerését, hanem komplex szemantikai következtetéseket is magában foglal, a kódoló pedig elsősorban a magas dimenziós szemantikai reprezentációkra összpontosít. A generálási feladat elsősorban a helyi részletek generálásával és a kép globális konzisztenciájának fenntartásával foglalkozik, így a térbeli struktúrák és a textúra részleteinek alacsony dimenziójú kódolt reprezentációira van szükség. A két feladat reprezentációinak ugyanabban a térben történő egyesítése konfliktusokhoz vezethet.
A Janus 2 független vizuális kódolási útvonalat tartalmaz a multimodális megértéshez és generáláshoz, és két előnnyel jár: 1) enyhíti a multimodális megértés és generálás eltérő granularitási követelményeiből eredő konfliktusokat, és 2) rugalmas és skálázható, szétválasztható, így mind a megértési, mind a generálási feladatok kódolhatók a saját területükre jellemző legkorszerűbb kódolási technikákkal, és a jövőben pontfelhőkkel, EEG-jelekkel vagy hangadatokkal táplálhatók, és egy egységes A jövőben pontfelhőket, EEG-jeleket vagy hangadatokat egy egységes transzformátorral lehet bevinni és feldolgozni.
A szövegértéshez a szöveget az LLM beépített tokenizálójával diszkrét azonosítókká alakítjuk;
A multimodális megértéshez a képeken található nagydimenziós szemantikai jellemzőket SigLIP kódolók segítségével vonjuk ki (a szerző megjegyzése: a Cosmos is SigLIP kódolókat használ a Guardrails részben), és a kinyert jellemzőket Adaptor (2 rétegű MLP) segítségével képezzük le az LLM szöveges jellemzőterébe;
A hosszú oldalt 384 pixelre állítottuk be, a rövid oldalt pedig 384 pixelre töltöttük ki RGB(127, 127, 127, 127) használatával;
A vizuális generáláshoz a képet a VQ Tokenizer segítségével diszkrét azonosítókká alakítottuk, és minden azonosítót az Adaptor (2 rétegű MLP) segítségével képeztünk le az LLM szöveges jellemzőterébe;
A rövid élek méretét 384 pixelre, a hosszú éleket pedig 384 pixelre vágtuk;
A teljes képzést 16 csomóponton végeztük, amelyek mindegyike 8 Nvidia A100 GPU-t tartalmazott;
Mind a vizuális generálási, mind a multimodális megértési feladatok esetében a képi és a szöveges jellemzősorozatokat összekapcsoljuk az LLM bemeneteként (a szövegben a DeepSeek-LLM 1.3B-t használjuk);
Az LLM beépített predikciós fejét a szöveges predikciókhoz használjuk mind a tiszta szövegértési, mind a multimodális megértési feladatokban, míg a képi predikciókhoz egy véletlenszerűen inicializált predikciós fejet használunk a vizuális generálási feladatban. Az egész modell egy autoregresszív keretrendszert követ, speciálisan tervezett figyelemmaszkok nélkül.
Janus képzés 3 fázisra oszlik:
1. fázis
Vonatadapter és képfej a nyelvi és vizuális elemek közötti kapcsolatok létrehozása a beágyazási térben, lehetővé téve az LLM számára, hogy megértse a képen található entitásokat, és kezdeti vizuális generálási képességekkel rendelkezzen;
A multimodális megértéshez használjon 1,25 millió kép-szöveg párosított felirat adatot a SHareGPT4V formátumból: ;
A vizuális generáláshoz 1,2 millió mintát használunk az ImageNet1k formátumból: ;
2. fázis
Egységesített előképzés, egy multimodális korpuszt használva az egységes előképzéshez a multimodális megértés és generálás megtanulásához. Ebben a fázisban egyszerű szöveges adatokat, multimodális megértési adatokat és vizuális generálási adatokat használunk. Egyszerű vizuális generálási tréning az ImageNet-1k segítségével, majd általános szöveg-kép adatok használata a vizuális generálás fokozására a modell nyitott tartományában;
Egyszerű szöveges adatok: DeepSeek-LLM előre betanított korpusz;
Átlapolt kép-szöveg adatok: WikiHow és WIT adatkészletek;
Képaláírás adatai: Képek több forrásból, és a képek egy részének új feliratozása nyílt forráskódú multimodális modellek segítségével, az adatok kérdés- és válaszpárként vannak formázva, pl. Describe the image in detail.
Táblázatos és grafikus adatok: a DeepSeek-VL megfelelő táblázatos és grafikus adatai a formátumban;
Vizuálisan generált adatok: kép-felirat párok több adatkészletből és 2 millió belső adat;
A képzés során csak a felirat első mondatát használjuk véletlenszerűen, 25% valószínűséggel;
Az ImageNet minták csak a kezdeti 120K képzési lépésben jelennek meg, a további 60K lépésben pedig más adathalmazokból származó képek jelennek meg;
3. fázis
Felügyelt finomhangolás, ahol az előre betanított modelleket finomhangolják az utasítások finomhangolási adatainak felhasználásával, hogy javítsák az utasítások és a párbeszéd követésére való képességüket. A generáló kódoló kivételével minden paraméter finomhangolása. A rendszer és a felhasználói jelzések elfedése a válaszok felügyelete során. Annak biztosítása érdekében, hogy a Janus mind a multimodális megértésben, mind a generálásban jártas legyen, a modelleket nem finomhangolják külön-külön az egyes feladatokra. Ehelyett a csak szöveges párbeszédadatok, a multimodális megértési adatok és a vizuális generálási adatok keverékét használjuk, hogy biztosítsuk a sokoldalúságot a különböző forgatókönyvekben;
Szövegértés: konkrét forrásokból származó adatok felhasználása;
Multimodális szövegértés: több forrásból származó adatok felhasználása az oktatás hangolásához;
Vizuális generálás: a kép-szöveg párok egy részhalmazának felhasználásával a II. fázis néhány adathalmazából, valamint 4 millió belső adatból;
Az adatformátum a következő: \n Assistant: ;
Képzési célok
A Janus egy autoregresszív modell, amelyet egy kereszt-entrópia veszteségfüggvény segítségével képeztek ki, az egyszerű szövegértési és multimodális szövegértési feladatok esetében a veszteséget a szövegrészletnél számítják ki. A vizuális generálási feladatok esetében a veszteséget csak a képszekvencián számoljuk ki. A tervezés egyszerűsége érdekében a különböző feladatokhoz nem rendelünk különböző veszteségsúlyokat.
Érvelés
A következő lexikai elem előrejelzési módszerrel a sima szövegértés és a multimodális szövegértés esetében a lexikai elemeket szekvenciálisan mintavételezzük az előrejelzési eloszlásból. A képgeneráláshoz osztályozó nélküli bootstrap-et használunk.
Lehetséges bővítések
A multimodális megértéshez 1) erősebb vizuális kódolót lehetne választani, és 2) dinamikus, nagy felbontású technikákat lehetne alkalmazni;
A látásgeneráláshoz 1) finomabb szemcseméretű kódolókat lehetne választani, 2) kifejezetten látásgenerálásra tervezett veszteségfüggvényeket lehetne használni, és 3) a kauzális figyelem és a párhuzamos módszerek kombinálása;
Több modalitás, a 3D pontfelhők, a haptika, az EEG és más bemeneti adatok integrálásának képessége a veszteségmodalitásokhoz;
Janus-Pro frissítés
A korlátozott képzési adatok és a viszonylag kis modellkapacitás (1B) miatt a Janus néhány szempontból hiányos, például a képgenerálás gyenge reprezentációja rövid jelek alatt és a szöveg-kép generálás inkonzisztens minősége.Az Janus-Pro felépítése megegyezik a Januséval, ami az alábbi ábrán látható:
Főbb fejlesztések
Képzési stratégia
1. szakasz: Növelje a képzési lépések számát, és teljes mértékben képezze az ImageNet-et;
2. szakasz: Nem használjuk tovább az ImageNet-et, közvetlenül a hagyományos szöveg-kép adatokat használjuk a képzéshez;
3. szakasz: Módosítsa az adatkészlet arányait a finomhangolási folyamat során a multimodális adatok, a sima szöveges adatok és a szöveg-kép adatok arányának 7:3:10-ről 5:1:4-re történő módosításával;
Adatskála
Multimodális megértés
2. szakasz: 90 millió minta hozzáadása, beleértve az YFCC-t a képfeliratozáshoz és a Doc-matrixot a táblázat és diagram dokumentum megértéséhez;
3. szakasz: A DeepSeek-VL2 további adathalmazok, például a MEME megértése;
Vizuális generálás: a valós adatok rossz minőségűek lehetnek, ami instabil szöveg-kép generálást és gyenge esztétikai kimenetet eredményezhet, az Janus-Pro 72 millió szintetikus esztétikai adatmintát használ, a valós adatok és a szintetikus adatok 1:1 arányú, egységes előképzési fázisával (2. szakasz);
Modell skála
A modell paramétereinek skálázása 7 milliárd paraméteres skálára;
Kísérleti részletek
A Janushoz képest az Janus-Pro kísérletek részletei alapvetően ugyanazok. Ezzel szemben a nagyobb paraméterű modell több klasztercsomópontot használt (16-32).
Janus-Pro képzési hiperparaméterek
Elégtelen
A multimodális megértéshez a bemeneti felbontás 384×384-re van korlátozva, ami befolyásolja a teljesítményt a finomabb vizuális feladatokban. A szöveg-kép generálásnál az alacsony felbontás a generált eredmények részletességének hiányát eredményezi.