Täydellinen selitys: DeepSeek Januksesta Janus-Pro:hen!

Vie viesti kotiin: Janus on yksinkertainen, yhtenäinen ja laajennettavissa oleva multimodaalisen ymmärtämisen ja tuottamisen malli, joka irrottaa multimodaalisen ymmärtämisen ja tuotetun visuaalisen koodauksen toisistaan ja lieventää näiden kahden tehtävän välisiä mahdollisia ristiriitoja. Sitä voidaan laajentaa siten, että siihen voidaan tulevaisuudessa sisällyttää uusia syöttötapoja. Janus-Pro rakentuu tälle perustalle optimoimalla koulutusstrategiaa (mm. lisäämällä koulutusvaiheiden määrää ja säätämällä datasuhteita), lisäämällä dataa (mm. käyttämällä synteettistä dataa) ja kasvattamalla mallin kokoa (7 miljardiin parametriin), mikä johtaa mallin multimodaalisen ymmärtämisen ja tekstin ja kuvan välisten ohjeiden noudattamisen valmiuksien kehittymiseen.

Koodiosoite

Janus Pro-osoite

Janus-Pro on edistynyt versio aiemmasta Janus-työstä, erityisesti (1) optimoidun koulutusstrategian, (2) laajennetun koulutusdatan ja (3) suurempien mallikokojen avulla. Näiden parannusten ansiosta Janus-Pro tekee merkittävää edistystä multimodaalisessa ymmärtämisessä ja tekstistä kuvaan -ohjeiden noudattamisvalmiuksissa ja parantaa samalla tekstistä kuvaan -generoinnin vakautta. Ennen Janus-Pro:n esittelyä käydään läpi Janus.

Sisällysluettelo

Januksen tarkastelu

Edeltäjä Janus on autoregressiivinen kehys yhtenäistä multimodaalista ymmärtämistä ja tuottamista varten, jota käytetään visuaalisen koodauksen erottamiseen yhtenäistä multimodaalista ymmärtämistä ja tuottamista varten. Multimodaalista ymmärtämistä varten suunnittelu noudattaa tyypillisesti LLaVA:ta, jossa visuaalisia koodaajia käytetään siltana, jotta suuret kielimallit voivat ymmärtää kuvia. Generoinnissa se perustuu yleensä diffuusiomalleihin, ja jotkut perustuvat autoregressiivisiin menetelmiin. Joissakin lähestymistavoissa yritetään käyttää yhtä Transformeria, jolla yritetään yhdistää multimodaalinen ymmärtäminen ja generointitehtävät, jolloin tyypillisesti käytetään yhtä visuaalista kooderia molempien tehtävien syötteiden käsittelyyn.

Multimodaalisten ymmärtämis- ja tuottamistehtävien edellyttämissä representaatioissa on kuitenkin eroja. Multimodaalisessa ymmärtämistehtävässä visuaalinen koodaaja pyrkii poimimaan korkean tason semanttista tietoa (esim. objektikategorioita tai visuaalisia attribuutteja), ja tulostuksessa ei ole kyse vain tiedon poimimisesta kuvasta vaan myös monimutkaisesta semanttisesta päättelystä, jossa koodaaja keskittyy pääasiassa korkea-ulotteisiin semanttisiin representaatioihin. Generointitehtävässä keskitytään pääasiassa paikallisten yksityiskohtien tuottamiseen ja kuvan globaalin johdonmukaisuuden ylläpitämiseen, mikä edellyttää matalaulotteisia koodattuja esityksiä avaruudellisista rakenteista ja tekstuurin yksityiskohdista. Molempien tehtävien representaatioiden yhdistäminen samaan tilaan voi johtaa ristiriitoihin.

Janus sisältää kaksi toisistaan riippumatonta visuaalista koodausreittiä multimodaalista ymmärtämistä ja tuottamista varten, ja se tuo mukanaan kaksi etua: 1) lieventää ristiriitoja, jotka johtuvat multimodaalisen ymmärtämisen ja tuottamisen erilaisista rakeisuusvaatimuksista, ja 2) on joustava ja skaalautuva, sillä se on erotettu toisistaan siten, että sekä ymmärtämis- että tuottamistehtävät voidaan koodata käyttämällä aloilleen ominaisia uusimpia koodaustekniikoita, ja tulevaisuudessa niihin voidaan syöttää pistepilviä, EEG-signaaleja tai äänidataa, ja niitä voidaan käsitellä yhtenäisellä Tulevaisuudessa pistepilviä, EEG-signaaleja tai äänidataa voidaan syöttää ja niitä voidaan käsitellä yhtenäisellä muuntajalla.

Tekstin ymmärtämistä varten teksti muunnetaan erillisiksi tunnuksiksi LLM:n sisäänrakennetulla Tokenizerilla;

Multimodaalista ymmärtämistä varten kuvien korkea-ulotteiset semanttiset piirteet poimitaan SigLIP-koodereiden avulla (tekijän huomautus: Cosmos käyttää myös SigLIP-koodereita Guardrails-osiossa), ja poimitut piirteet kartoitetaan LLM:n tekstiominaisuusavaruuteen Adaptorin (2-kerroksinen MLP) avulla;

Pitkä puoli säädettiin 384 pikseliin ja lyhyt puoli täytettiin 384 pikseliin RGB(127, 127, 127) -värillä;

Visuaalista tuottamista varten kuva muunnettiin erillisiksi tunnuksiksi VQ Tokenizer -ohjelmalla, ja kukin tunnus kuvattiin LLM:n tekstuaaliseen ominaisuusavaruuteen Adaptor-ohjelmalla (2-kerroksinen MLP);

Lyhyiden reunojen kokoa muutettiin 384 pikseliin ja pitkien reunojen kokoa leikattiin 384 pikseliin;

Kokonaisharjoittelu suoritettiin 16 solmulla, joista kukin sisälsi 8 Nvidia A100 GPU:ta;

Sekä visuaalisen tuottamisen että multimodaalisen ymmärtämisen tehtävissä kuvan ja tekstin ominaisuussekvenssit yhdistetään toisiinsa LLM:n syötteenä (tekstissä käytetään DeepSeek-LLM 1.3B:tä);

LLM:n sisäänrakennettua ennustuspäätä käytetään tekstin ennustamiseen sekä pelkän tekstin ymmärtämis- että multimodaalisen ymmärtämisen tehtävissä, kun taas satunnaisesti alustettua ennustuspäätä käytetään kuvien ennustamiseen visuaalisen tuottamisen tehtävässä. Koko malli noudattaa autoregressiivistä kehystä ilman erityisesti suunniteltuja huomiomaskeja.

Janus-koulutus on jaettu kolmeen vaiheeseen:

Vaihe 1

Junan sovitin ja kuvapää luoda yhteyksiä kielellisten ja visuaalisten elementtien välille upotusavaruudessa, jolloin LLM ymmärtää kuvassa olevia kokonaisuuksia ja sillä on ensimmäiset visuaaliset luomisvalmiudet;

Käytä multimodaalista ymmärtämistä varten 1,25 miljoonan kuvan ja tekstin muodostamaa paritettua kuvatekstitietoa SHareGPT4V-muodossa: ;

Visuaalista luomista varten käytetään 1,2 miljoonaa ImageNet1k:n näytettä muodossa: ;

Vaihe 2

Yhtenäinen esivalmennus, käyttämällä multimodaalista korpusta yhtenäiseen esiharjoitteluun multimodaalisen ymmärtämisen ja tuottamisen oppimiseksi. Tässä vaiheessa käytetään pelkkää tekstidataa, multimodaalista ymmärtämistä koskevaa dataa ja visuaalista tuottamista koskevaa dataa. Yksinkertainen visuaalisen tuottamisen harjoittelu ImageNet-1k:n avulla, minkä jälkeen käytetään yleistä tekstistä kuvaan -dataa visuaalisen tuottamisen tehostamiseksi mallin avoimella alueella;

Pelkkä tekstimuotoinen tieto: DeepSeek-LLM esivalmennettu korpus;

Kuvan ja tekstin lomitetut tiedot: WikiHow- ja WIT-aineistot;

Kuvan kuvateksti: Kuvat useista eri lähteistä, ja osa kuvista kuvatekstattu uudelleen käyttäen avoimen lähdekoodin multimodaalisia malleja, ja tiedot on muotoiltu kysymys- ja vastauspareiksi, esim. Kuvaile kuvaa yksityiskohtaisesti.;

Taulukkomuotoiset ja graafiset tiedot: vastaavat taulukkomuotoiset ja graafiset tiedot DeepSeek-VL:stä muodossa ;

Visuaalisesti tuotetut tiedot: kuva-otsikkoparit useista tietokokonaisuuksista ja 2 miljoonaa sisäistä tietoa;

Harjoittelun aikana käytetään satunnaisesti vain kuvatekstin ensimmäistä lausetta 25%-todennäköisyydellä;

ImageNet-näytteet esiintyvät vain ensimmäisissä 120 000 harjoitusvaiheessa, ja muiden tietokokonaisuuksien kuvat esiintyvät myöhemmissä 60 000 vaiheessa;

Vaihe 3

Valvottu hienosäätö, jossa esivalmennettuja malleja hienosäädetään ohjeiden hienosäätötietojen avulla, jotta niiden kyky seurata ohjeita ja vuoropuhelua paranee. Hienosäädä kaikki parametrit paitsi generoiva kooderi. Järjestelmän ja käyttäjän vihjeiden peittäminen vastauksia valvoessa. Sen varmistamiseksi, että Janus osaa sekä multimodaalisen ymmärtämisen että generoinnin, malleja ei hienosäädetä erikseen tiettyjä tehtäviä varten. Sen sijaan käytämme sekoitusta pelkkää tekstiä sisältävää dialogidataa, multimodaalista ymmärtämistä koskevaa dataa ja visuaalista generointia koskevaa dataa, jotta voimme varmistaa monipuolisuuden erilaisissa skenaarioissa;

Tekstin ymmärtäminen: käyttää tietyistä lähteistä saatuja tietoja;

Multimodaalinen ymmärtäminen: useista lähteistä saatavien tietojen käyttö opetuksen virittämiseen;

Visuaalinen luominen: käyttäen osajoukkoa kuva-tekstipareista joistakin vaiheen II tietokokonaisuuksista sekä 4 miljoonaa sisäistä tietoa;

Tietomuoto on: Käyttäjä: \n Assistentti: ;

Koulutuksen tavoitteet

Janus on autoregressiivinen malli, joka on koulutettu käyttämällä risti-entropian häviöfunktiota. Tavallisen tekstin ymmärtämisessä ja multimodaalisissa ymmärtämistehtävissä häviö lasketaan tekstisekvenssissä. Visuaalisissa generointitehtävissä häviö lasketaan vain kuvasekvenssissä. Suunnittelun pitämiseksi yksinkertaisena eri tehtäville ei anneta erilaisia tappiopainoja.

Perustelut

Seuraavan leksikaalisen elementin ennustamismenetelmää käytettäessä tavallisen tekstin ymmärtämisessä ja multimodaalisessa ymmärtämisessä leksikaaliset elementit poimitaan peräkkäin ennustejakaumasta. Kuvanmuodostuksessa käytetään luokittelematonta bootstrap-menetelmää.

Mahdolliset laajennukset

Multimodaalista ymmärtämistä varten voitaisiin 1) valita vahvempi visuaalinen kooderi ja 2) käyttää dynaamisia korkean resoluution tekniikoita;

Näön tuottamiseen voitaisiin valita 1) hienojakoisempia koodaajia, 2) käyttää nimenomaan näön tuottamiseen suunniteltuja häviöfunktioita ja 3) yhdistää kausaalinen huomio ja rinnakkaiset menetelmät;

Enemmän modaliteetteja, kun 3D-pistepilviä, haptisia ominaisuuksia, EEG:tä ja muita häviämismodaliteettien syötteitä voidaan integroida;

Janus-Pro päivitys

Janus on rajallinen harjoitusdatan ja suhteellisen pienen mallikapasiteetin (1B) vuoksi puutteellinen joiltakin osin, kuten esimerkiksi kuvan tuottamisen huono esitys lyhyiden vihjeiden perusteella ja tekstistä kuvaan -muodostuksen epäjohdonmukainen laatu.Janus-Pro:n arkkitehtuuri on sama kuin Januksen, mikä näkyy alla olevasta kuvasta:

Tärkeimmät parannukset

Koulutusstrategia

Vaihe 1: Lisää harjoitteluvaiheiden määrää ja harjoittelu ImageNetillä;

Vaihe 2: Ei enää ImageNetiä, vaan käytetään suoraan tavallista tekstistä kuvaan -dataa harjoitteluun;

Vaihe 3: Muutetaan tietokokonaisuuksien suhteita hienosäätöprosessissa muuttamalla multimodaalisen datan, pelkän tekstidatan ja tekstin ja kuvan välinen suhde 7:3:10:stä 5:1:4:ään;

Tietoasteikko

Multimodaalinen ymmärtäminen

Vaihe 2: Lisätään 90 miljoonaa näytettä, mukaan lukien YFCC kuvien otsikointiin ja Doc-matrix taulukko- ja kaavioasiakirjojen ymmärtämiseen;

Vaihe 3: Lisää DeepSeek-VL2-lisätietoaineistoja, kuten MEME-ymmärrys;

Visuaalinen generointi: reaalimaailman datan laatu voi olla huono, mikä johtaa epävakaaseen tekstin ja kuvan väliseen generointiin ja huonoon esteettiseen tulokseen. Janus-Pro käyttää 72 miljoonaa näytettä synteettistä esteettistä dataa, ja esiharjoitteluvaiheessa (vaihe 2) reaalidatan ja synteettisen datan suhde on 1:1;

Mallin mittakaava

Skaalaa mallin parametrit 7 miljardin parametrin mittakaavaan;

Kokeelliset yksityiskohdat

Janukseen verrattuna Janus-Pro-kokeiden yksityiskohdat ovat periaatteessa samat. Sen sijaan suuremman parametrin mallissa käytettiin enemmän klusterisolmuja (16-32).

Janus-Pro-hyperparametrit

Riittämätön

Multimodaalista ymmärtämistä varten syötteen resoluutio on rajoitettu 384×384:ään, mikä vaikuttaa suorituskykyyn hienojakoisissa visuaalisissa tehtävissä. Tekstistä kuvaan -tuotannossa alhainen resoluutio johtaa yksityiskohtaisuuden puutteeseen tuotetuissa tuloksissa.

Täydellinen selitys: DeepSeek Januksesta Janus-Pro:hen!

Januksen tarkastelu