Üzenet haza: A Janus egy egyszerű, egységes és bővíthető multimodális megértési és generálási modell, amely szétválasztja a multimodális megértést és a generált vizuális kódolást, enyhítve a két feladat közötti lehetséges konfliktusokat. A jövőben további bemeneti modalitások bevonásával bővíthető. Az Janus-Pro erre az alapra épít a képzési stratégia optimalizálásával (beleértve a képzési lépések számának növelését, az adatarányok beállítását stb.), több adat hozzáadásával (beleértve a szintetikus adatok használatát stb.) és a modell méretének növelésével (7 milliárd paraméterre), ami a modell multimodális megértési és szöveg-kép utasításkövetési képességeinek fejlődéséhez vezet.

Kódcím

Janus Pro cím

Janus-Pro a Janus korábbi munkájának továbbfejlesztett változata, konkrétan: (1) optimalizált képzési stratégia, (2) kibővített képzési adatok és (3) nagyobb modellméretek. Ezekkel a fejlesztésekkel az Janus-Pro jelentős előrelépést tesz a multimodális megértés és a szöveg-kép utasításkövetési képességek terén, miközben a szöveg-kép generálás stabilitását is javítja. Mielőtt az Janus-Pro-t kipakolnánk, tekintsük át a Janust.

Janus felülvizsgálata

A Janus elődje egy autoregresszív keretrendszer az egységes multimodális megértéshez és generáláshoz, amely a vizuális kódolás szétválasztására szolgál az egységes multimodális megértéshez és generáláshoz. A multimodális megértéshez a tervezés jellemzően a LLaVA-t követi, a vizuális kódolókat hídként használva, hogy a nagy nyelvi modellek képeket is megértsenek. A generáláshoz általában diffúziós modelleken alapul, egyesek pedig autoregresszív módszereken. Egyes megközelítések egyetlen transzformátorral próbálják egyesíteni a multimodális megértési és generálási feladatokat, amely jellemzően egyetlen vizuális kódolót használ mindkét feladat bemeneteinek feldolgozására.

A multimodális megértési és generálási feladatokhoz szükséges reprezentációk között azonban különbségek vannak. A multimodális megértési feladatban a vizuális kódoló célja a magas szintű szemantikai információk (pl. tárgykategóriák vagy vizuális attribútumok) kinyerése, a kimenet pedig nemcsak a képből való információ kinyerését, hanem komplex szemantikai következtetéseket is magában foglal, a kódoló pedig elsősorban a magas dimenziós szemantikai reprezentációkra összpontosít. A generálási feladat elsősorban a helyi részletek generálásával és a kép globális konzisztenciájának fenntartásával foglalkozik, így a térbeli struktúrák és a textúra részleteinek alacsony dimenziójú kódolt reprezentációira van szükség. A két feladat reprezentációinak ugyanabban a térben történő egyesítése konfliktusokhoz vezethet.

A Janus 2 független vizuális kódolási útvonalat tartalmaz a multimodális megértéshez és generáláshoz, és két előnnyel jár: 1) enyhíti a multimodális megértés és generálás eltérő granularitási követelményeiből eredő konfliktusokat, és 2) rugalmas és skálázható, szétválasztható, így mind a megértési, mind a generálási feladatok kódolhatók a saját területükre jellemző legkorszerűbb kódolási technikákkal, és a jövőben pontfelhőkkel, EEG-jelekkel vagy hangadatokkal táplálhatók, és egy egységes A jövőben pontfelhőket, EEG-jeleket vagy hangadatokat egy egységes transzformátorral lehet bevinni és feldolgozni.

A szövegértéshez a szöveget az LLM beépített tokenizálójával diszkrét azonosítókká alakítjuk;

A multimodális megértéshez a képeken található nagydimenziós szemantikai jellemzőket SigLIP kódolók segítségével vonjuk ki (a szerző megjegyzése: a Cosmos is SigLIP kódolókat használ a Guardrails részben), és a kinyert jellemzőket Adaptor (2 rétegű MLP) segítségével képezzük le az LLM szöveges jellemzőterébe;

A hosszú oldalt 384 pixelre állítottuk be, a rövid oldalt pedig 384 pixelre töltöttük ki RGB(127, 127, 127, 127) használatával;

A vizuális generáláshoz a képet a VQ Tokenizer segítségével diszkrét azonosítókká alakítottuk, és minden azonosítót az Adaptor (2 rétegű MLP) segítségével képeztünk le az LLM szöveges jellemzőterébe;

A rövid élek méretét 384 pixelre, a hosszú éleket pedig 384 pixelre vágtuk;

A teljes képzést 16 csomóponton végeztük, amelyek mindegyike 8 Nvidia A100 GPU-t tartalmazott;

Mind a vizuális generálási, mind a multimodális megértési feladatok esetében a képi és a szöveges jellemzősorozatokat összekapcsoljuk az LLM bemeneteként (a szövegben a DeepSeek-LLM 1.3B-t használjuk);

Az LLM beépített predikciós fejét a szöveges predikciókhoz használjuk mind a tiszta szövegértési, mind a multimodális megértési feladatokban, míg a képi predikciókhoz egy véletlenszerűen inicializált predikciós fejet használunk a vizuális generálási feladatban. Az egész modell egy autoregresszív keretrendszert követ, speciálisan tervezett figyelemmaszkok nélkül.

Janus képzés 3 fázisra oszlik:

1. fázis

Vonatadapter és képfej a nyelvi és vizuális elemek közötti kapcsolatok létrehozása a beágyazási térben, lehetővé téve az LLM számára, hogy megértse a képen található entitásokat, és kezdeti vizuális generálási képességekkel rendelkezzen;

A multimodális megértéshez használjon 1,25 millió kép-szöveg párosított felirat adatot a SHareGPT4V formátumból: ;

A vizuális generáláshoz 1,2 millió mintát használunk az ImageNet1k formátumból: ;

2. fázis

Egységesített előképzés, egy multimodális korpuszt használva az egységes előképzéshez a multimodális megértés és generálás megtanulásához. Ebben a fázisban egyszerű szöveges adatokat, multimodális megértési adatokat és vizuális generálási adatokat használunk. Egyszerű vizuális generálási tréning az ImageNet-1k segítségével, majd általános szöveg-kép adatok használata a vizuális generálás fokozására a modell nyitott tartományában;

Egyszerű szöveges adatok: DeepSeek-LLM előre betanított korpusz;

Átlapolt kép-szöveg adatok: WikiHow és WIT adatkészletek;

Képaláírás adatai: Képek több forrásból, és a képek egy részének új feliratozása nyílt forráskódú multimodális modellek segítségével, az adatok kérdés- és válaszpárként vannak formázva, pl. Describe the image in detail.;

Táblázatos és grafikus adatok: a DeepSeek-VL megfelelő táblázatos és grafikus adatai a formátumban;

Vizuálisan generált adatok: kép-felirat párok több adatkészletből és 2 millió belső adat;

A képzés során csak a felirat első mondatát használjuk véletlenszerűen, 25% valószínűséggel;

Az ImageNet minták csak a kezdeti 120K képzési lépésben jelennek meg, a további 60K lépésben pedig más adathalmazokból származó képek jelennek meg;

3. fázis

Felügyelt finomhangolás, ahol az előre betanított modelleket finomhangolják az utasítások finomhangolási adatainak felhasználásával, hogy javítsák az utasítások és a párbeszéd követésére való képességüket. A generáló kódoló kivételével minden paraméter finomhangolása. A rendszer és a felhasználói jelzések elfedése a válaszok felügyelete során. Annak biztosítása érdekében, hogy a Janus mind a multimodális megértésben, mind a generálásban jártas legyen, a modelleket nem finomhangolják külön-külön az egyes feladatokra. Ehelyett a csak szöveges párbeszédadatok, a multimodális megértési adatok és a vizuális generálási adatok keverékét használjuk, hogy biztosítsuk a sokoldalúságot a különböző forgatókönyvekben;

Szövegértés: konkrét forrásokból származó adatok felhasználása;

Multimodális szövegértés: több forrásból származó adatok felhasználása az oktatás hangolásához;

Vizuális generálás: a kép-szöveg párok egy részhalmazának felhasználásával a II. fázis néhány adathalmazából, valamint 4 millió belső adatból;

Az adatformátum a következő: \n Assistant: ;

Képzési célok

A Janus egy autoregresszív modell, amelyet egy kereszt-entrópia veszteségfüggvény segítségével képeztek ki, az egyszerű szövegértési és multimodális szövegértési feladatok esetében a veszteséget a szövegrészletnél számítják ki. A vizuális generálási feladatok esetében a veszteséget csak a képszekvencián számoljuk ki. A tervezés egyszerűsége érdekében a különböző feladatokhoz nem rendelünk különböző veszteségsúlyokat.

Érvelés

A következő lexikai elem előrejelzési módszerrel a sima szövegértés és a multimodális szövegértés esetében a lexikai elemeket szekvenciálisan mintavételezzük az előrejelzési eloszlásból. A képgeneráláshoz osztályozó nélküli bootstrap-et használunk.

Lehetséges bővítések

A multimodális megértéshez 1) erősebb vizuális kódolót lehetne választani, és 2) dinamikus, nagy felbontású technikákat lehetne alkalmazni;

A látásgeneráláshoz 1) finomabb szemcseméretű kódolókat lehetne választani, 2) kifejezetten látásgenerálásra tervezett veszteségfüggvényeket lehetne használni, és 3) a kauzális figyelem és a párhuzamos módszerek kombinálása;

Több modalitás, a 3D pontfelhők, a haptika, az EEG és más bemeneti adatok integrálásának képessége a veszteségmodalitásokhoz;

Janus-Pro frissítés

A korlátozott képzési adatok és a viszonylag kis modellkapacitás (1B) miatt a Janus néhány szempontból hiányos, például a képgenerálás gyenge reprezentációja rövid jelek alatt és a szöveg-kép generálás inkonzisztens minősége.Az Janus-Pro felépítése megegyezik a Januséval, ami az alábbi ábrán látható:

Főbb fejlesztések

Képzési stratégia

1. szakasz: Növelje a képzési lépések számát, és teljes mértékben képezze az ImageNet-et;

2. szakasz: Nem használjuk tovább az ImageNet-et, közvetlenül a hagyományos szöveg-kép adatokat használjuk a képzéshez;

3. szakasz: Módosítsa az adatkészlet arányait a finomhangolási folyamat során a multimodális adatok, a sima szöveges adatok és a szöveg-kép adatok arányának 7:3:10-ről 5:1:4-re történő módosításával;

Adatskála

Multimodális megértés

2. szakasz: 90 millió minta hozzáadása, beleértve az YFCC-t a képfeliratozáshoz és a Doc-matrixot a táblázat és diagram dokumentum megértéséhez;

3. szakasz: A DeepSeek-VL2 további adathalmazok, például a MEME megértése;

Vizuális generálás: a valós adatok rossz minőségűek lehetnek, ami instabil szöveg-kép generálást és gyenge esztétikai kimenetet eredményezhet, az Janus-Pro 72 millió szintetikus esztétikai adatmintát használ, a valós adatok és a szintetikus adatok 1:1 arányú, egységes előképzési fázisával (2. szakasz);

Modell skála

A modell paramétereinek skálázása 7 milliárd paraméteres skálára;

Kísérleti részletek

A Janushoz képest az Janus-Pro kísérletek részletei alapvetően ugyanazok. Ezzel szemben a nagyobb paraméterű modell több klasztercsomópontot használt (16-32).

Janus-Pro képzési hiperparaméterek

Elégtelen

A multimodális megértéshez a bemeneti felbontás 384×384-re van korlátozva, ami befolyásolja a teljesítményt a finomabb vizuális feladatokban. A szöveg-kép generálásnál az alacsony felbontás a generált eredmények részletességének hiányát eredményezi.

Hasonló hozzászólások

Vélemény, hozzászólás?

Az e-mail címet nem tesszük közzé. A kötelező mezőket * karakterrel jelöltük