Räjähdys! DeepSeekkiinalaisen uudenvuoden lahja - yksityiskohtainen selitys multimodaalisesta mallista Janus-Pro

DeepSeekin uusin Janus-Pro-malli yhdistää suoraan multimodaalisen tekoälyn "vasemman ja oikean aivot"!

Tämä kaksitahoinen tappaja, joka pystyy samanaikaisesti ymmärtämään kuvaa ja tekstiä sekä tuottamaan kuvia, kirjoittaa alan säännöt uusiksi itse kehitetyllä kehyksellään.

Kyse ei ole pelkästä toimintojen päällekkäisyydestä, vaan erottamalla visuaalinen koodausreitti toisistaan malli on saavuttanut todellisen "yksi mieli, kaksi käyttöä" -periaatteen.

Perinteiset multimodaaliset mallit ovat kuin käyttäisi samaa kättä kirjoittamiseen ja piirtämiseen, kun taas Janus-Pro varustaa tekoälyn suoraan kahdella hermojärjestelmällä!

Puitteiden vallankumous: vuosisatoja vanhan multimodaalisuusongelman ratkaiseminen

Janus-Pro:n häikäilemättömin uudistus on visuaalisen koodauksen jakaminen kahteen itsenäiseen kanavaan.

Se on kuin varustaisi tekoälyn ymmärtävän silmän ja luovan käden, jotta malli ei enää kamppaile käsitellessään "kuvakuvausta" ja "tekstistä kuvaksi".

Sen suurin läpimurto on sen upouusi yhtenäinen arkkitehtuurisuunnittelu. Tämä arkkitehtuuri koostuu kolmesta keskeisestä komponentista:

Autokooderi: kielen perusmallina

SigLIP-L@384: vastaa kuvien ymmärtämisen koodauksesta.

LlamaGeniin perustuva VQ-VAE: kuvien tuottamiseen.

Irrottamalla visuaalisen koodauksen itsenäisiksi poluiksi ja säilyttämällä samalla yhtenäisen Transformer-arkkitehtuurin Janus-Pro ratkaisee nerokkaasti aiempien mallien visuaalisen koodauksen rooliristiriidan.

@reach_vb huomauttaa arkkitehtuurin tärkeimmästä läpimurrosta:

Malli perustuu DeepSeek-LLM-1.5b/7b:hen, se käyttää SigLIP-L:ää 384×384-kokoisten kuvasyötteiden käsittelyyn ja irrottaa koodausprosessin tehtäväkohtaisten polkujen kautta.

Tämän rakenteen ansiosta malli voi vaihtaa saumattomasti multimodaalisten tehtävien välillä säilyttäen samalla yhden Transformer-arkkitehtuurin.

Koulutusstrategia: evolutiivinen tie kolmivaiheiseen menestykseen

DeepSeekin tiimi otti käyttöön huolellisesti suunnitellun kolmivaiheisen koulutusprosessin:

Vaihe 1: Uusien parametrien kouluttaminen ImageNet-tietokannalla visuaalisten ja kielellisten elementtien välisten käsitteellisten yhteyksien luomiseksi.

Vaihe 2: Otetaan käyttöön multimodaalinen hybridiaineisto parametrien hienosäätöä varten.

Vaihe 3: Parannetaan komentojen seuraamista ja vuoropuheluvalmiuksia valvotun hienosäädön avulla.

Tietosuhteeseen on tehty myös innovatiivisia mukautuksia:

Kuvien ymmärtämistehtävä: 50% (merkittävä lisäys).

Kuvanmuodostustehtävä: 40

Tekstitehtävä: 10%

@iScienceLuvr huomauttaa harjoittelun salaisuudesta:

Tekstitehtävien osuutta vähennettiin tarkoituksellisesti hienosäädön kolmannessa vaiheessa.

Tämä pakottaa mallin keskittämään laskentatehonsa liikennemuotojen väliseen muuntamiseen.

Suorituskyvyn päällikkö

Tämä "monitoimihirviö" tekee selvää jälkeä kahdella keskeisellä mittarilla!

Viralliset testit osoittavat, että Janus-Pro ei ainoastaan päihitä edellistä yhtenäistä mallia, vaan se voi jopa päihittää erikoistuneet mallit - se saa yhtä hyvät pisteet kuin LLaVA ymmärtämistehtävässä ja päihittää DALL-E 3:n sukupolven laadussa!

GenEval-pistemäärän ollessa 0,8 se häpäisee SD3-Mediumin.

ja DPG-Bench-pistemäärä 84,19, sen visuaalisen luomisen laatu on lähellä ammattisuunnittelijoiden laatua.

Tämä perustuu 72 miljoonaa synteettistä kuvaa sisältävään koulutusstrategiaan ja kolmivaiheiseen koulutukseen (sovituskoulutus → yhtenäistetty esikoulutus → valvottu hienosäätö), joka on kirjaimellisesti tehnyt mallista "multimodaalisen mestarin".

@dr_cintas julkaisi vertailun todellisista mittauksista:

Kun 4-bittinen kvantifioitu versio ajetaan iPhonella, päättelynopeus on lähes 60 merkkiä/s.

Luodussa 384×384-kokoisessa pikkukuvassa voi lukea rekisterikilven tekstin.

Multimodaalisen ymmärtämisen vertailutestissä Janus-Pro-7B osoitti hämmästyttävää vahvuutta:

PAAVI: 87.4%

MME-PT: 1567.1

MMBench: 79.2

SEED: 72.1

MMMU: 41.0

MM-Vet: 50.0

Kuvien luomisessa malli saavutti GenEval-pistemäärän 0,8 ja DPG-Bench-pistemäärän 84,19, mikä on parempi kuin monet valtavirran mallit, kuten DALL-E 3 ja SD3-Medium.

MIT avoin lähdekoodi: pelaa vapaasti!

DeepSeek on tällä kertaa kääntänyt pöydän - 7B/1B-kaksoisversio on täysin avointa lähdekoodia, ja MIT-lisenssi sallii kaupalliset muutokset!

Hugging Face on ladattavissa heti, ja jopa 1B-kevytversiota voi käyttää paikallisesti iPhonessa.

Kehittäjä @angrypenguinPNG antoi live-esittelyn:

Kirjoita "future city night scene" ja kyberpunk-katunäkymä ilmestyi sekunneissa.

Zoomaa lähemmäs tutkiaksesi kohtauksen yksityiskohtia, ja malli voi kuvata tarkasti neonvalojen kaltevuuden.

Käytännön arvo: markkinoille pääsyn esteiden madaltaminen

Eri skenaarioiden tarpeisiin DeepSeek tarjoaa kaksi versiota:

Janus-Pro-7B: täysversio, jossa on tehokas suorituskyky.

Janus-Pro-1B: kevyt versio, joka voidaan ajaa suoraan selaimessa.

Molemmat versiot on julkaistu Hugging Face -alustalla ja julkaistu MIT-lisenssillä, joten kehittäjät voivat vapaasti käyttää ja muokata niitä.

DeepSeekin kattava läpimurto

Nyt jännittävin kysymys on: kun ymmärtäminen ja tuottaminen eivät enää vaadi kahta erillistä mallia, murtuuko nykyinen tekoälyn sovellusarkkitehtuuri kollektiivisesti?

Niiden, jotka vielä kamppailevat yksimodaalisten sovellusten kanssa, tulisi harkita yhteistoiminnallisten sovellusten kehittämistä vasemman ja oikean aivojen käyttöön.

Loppujen lopuksi malli, joka voi samanaikaisesti käyttää sekä tekstiä että grafiikkaa, on multimodaalisuuden todellinen ruumiillistuma.

On syytä huomata, että Janus-Pro:n julkaisu on vain yksi DeepSeekin viimeaikaisista suurista läpimurroista:

Perplexity on integroinut DeepSeek R1 -mallin syväverkkohakua varten.

DeepSeek R1:n tislattu versio saavuttaa iPhonella 60 merkkiä/s nopeuden paikallisessa päättelyssä.

DeepSeek AI Assistant on noussut App Storen ilmaislistan kärkeen

ja osoitti erittäin nopean päättelysuorituskyvyn Groq-alustalla.

Nämä saavutukset osoittavat DeepSeekin kattavan vahvuuden tekoälyn alalla, ja Janus-Pro:n uraauurtava edistys on avannut uusia suuntia multimodaalisen tekoälyn kehittämiselle.

Janus pro Liittyvät linkit ja asiakirjat

Hankkeen osoite:

GitHub-arkisto

Tekninen raportti

Mallin lataukset:

Janus-Pro-7B

Janus-Pro-1B

Nopea kokemus:

Ei käyttöönottoa, ilmainen, verkkokäyttö janus pro

Viiteasiakirjat:

Pika-aloitusopas

DeepSeekin virallinen tapahtuma

Lopuksi haluamme sanoa: Sam Altmanin yrityksen nimi, hänen maalaamansa piirakka ja hänen ajattelemansa polku näyttävät siirtyvän tälle uteliaisuuteen perustuvalle kiinalaiselle yritykselle, joka jatkaa älykkyyden rajojen syvällistä tutkimista!

Samankaltaisia viestejä

Vastaa

Sähköpostiosoitettasi ei julkaista. Pakolliset kentät on merkitty *