Robbanás! DeepSeeka kínai újévi ajándék - a multimodális modell részletes magyarázata Janus-Pro

A DeepSeek legújabb Janus-Pro modellje közvetlenül összekapcsolja a multimodális mesterséges intelligencia "bal és jobb agyféltekéjét"!

Ez a kétarcú gyilkos, amely egyszerre képes kép- és szövegértésre és képgenerálásra, saját fejlesztésű keretrendszerével újraírja az iparág szabályait.

Ez nem a funkciók egyszerű szuperpozíciója, hanem a vizuális kódolási útvonal szétválasztásával a modell elérte a valódi "egy elme, két használat" elvét.

A hagyományos multimodális modellek olyanok, mintha ugyanazt a kezet használnánk írásra és rajzolásra, míg az Janus-Pro közvetlenül két neurális rendszerrel szereli fel a mesterséges intelligenciát!

Keretforradalom: a multimodalitás évszázados problémájának megoldása

Az Janus-Pro legkíméletlenebb újítása a vizuális kódolás két független csatornára való felosztása.

Ez olyan, mintha a mesterséges intelligenciát a megértés szemével és az alkotás kezével szerelnénk fel, hogy a modell többé ne küzdjön a "képleírás" és a "szövegből kép" feldolgozása során.

A legnagyobb áttörést a vadonatúj, egységes architektúra kialakítása jelenti. Ez az architektúra három alapvető komponensből áll:

Autoencoder: mint az alapvető nyelvi modell

SigLIP-L@384: felelős a képi megértés kódolásáért

VQ-VAE a LlamaGen alapján: képgeneráláshoz

A vizuális kódolás független útvonalakra történő szétválasztásával, ugyanakkor az egységes transzformátor-architektúra fenntartásával az Janus-Pro zseniálisan oldja fel a korábbi modellek szerepkonfliktusát a vizuális kódolóban.

@reach_vb rámutat a legfontosabb áttörésre az architektúrában:

A modell a DeepSeek-LLM-1.5b/7b-re épül, SigLIP-L-t használ a 384×384 képméretű bemenetek feldolgozásához, és a kódolási folyamatot feladatspecifikus útvonalakon keresztül szétválasztja.

Ez a kialakítás lehetővé teszi, hogy a modell zökkenőmentesen váltson a multimodális feladatok között, miközben egyetlen Transformer architektúrát tart fenn.

Képzési stratégia: az evolúciós út a háromlépcsős sikerhez

A DeepSeek csapata egy gondosan megtervezett, háromlépcsős képzési folyamatot alkalmazott:

1. szakasz: Új paraméterek képzése az ImageNet-adatkészleten a vizuális és nyelvi elemek közötti fogalmi kapcsolatok létrehozása érdekében.

2. szakasz: Multimodális hibrid adathalmaz bevezetése a teljes paraméter-finomhangoláshoz

3. szakasz: A parancskövetési és párbeszédképesség javítása felügyelt finomhangolással

Innovatív kiigazításokat végeztek az adatok arányában is:

Képmegértési feladat: 50% (jelentős növekedés)

Képgenerálási feladat: 40

Szöveges feladat: 10%

@iScienceLuvr rámutat az edzés titkára:

A szöveges feladatok arányát szándékosan csökkentették a finomhangolás harmadik szakaszában.

Ez arra kényszeríti a modellt, hogy a számítási teljesítményét az intermodális konverzióra összpontosítsa.

Teljesítmény mester

Ez a "mindenes" szörnyeteg a két legfontosabb mérőszámban gyilkol!

A hivatalos tesztek azt mutatják, hogy az Janus-Pro nem csak az előző egységesített modellt veri, de még a speciális modellekkel is felveszi a versenyt - a szövegértési feladatban olyan magas pontszámot ért el, mint az LLaVA, és a generációs minőségben felülmúlja a DALL-E 3-at!

0,8-as GenEval pontszámával az SD3-Mediumot is megszégyeníti.

és 84,19-es DPG-Bench pontszámával a vizuális alkotás minősége közel áll a professzionális tervezőkéhez.

Ennek alapja egy 72 millió szintetikus képet tartalmazó képzési stratégia és három képzési szakasz (adapteres képzés → egységesített előképzés → felügyelt finomhangolás), amely a modellt szó szerint "multimodális mesterré" tette.

@dr_cintas közzétette a tényleges mérések összehasonlítását:

A 4 bites kvantált változatot egy iPhone-on futtatva a következtetés sebessége közel 60 token/s.

A generált 384×384-es miniatűr képen ténylegesen olvasható a rendszámtábla szövege

A multimodális megértési benchmark tesztben az Janus-Pro-7B elképesztően erősnek bizonyult:

PÁPA: 87.4%

MME-PT: 1567.1

MMBench: 79.2

SEED: 72.1

MMMU: 41.0

MM-Vet: 50.0

A képalkotás tekintetében a modell 0,8-as GenEval-pontszámot és 84,19-es DPG-Bench-pontszámot ért el, ami számos mainstream modellt, köztük a DALL-E 3-at és az SD3-Mediumot is felülmúlja.

MIT nyílt forráskód: játszhatsz bátran!

A DeepSeek ezúttal fordított a kockán - a 7B/1B kettős verzió teljesen nyílt forráskódú, és a MIT licenc lehetővé teszi a kereskedelmi módosításokat!

Az Hugging Face azonnal letölthető, és még az 1B lightweight verzió is futtatható helyben egy iPhone-on.

A fejlesztő @angrypenguinPNG élő bemutatót tartott:

Adja be a "future city night scene" kifejezést, és másodpercek alatt megjelent egy cyberpunk utcakép.

Közelítsen rá a jelenet részleteinek vizsgálatához, és a modell pontosan le tudja írni a neonfények gradiensét.

Gyakorlati érték: a belépési korlátok csökkentése

A különböző forgatókönyvek igényeinek kielégítésére a DeepSeek két változatot kínál:

Janus-Pro-7B: a teljes verzió, erőteljes teljesítménnyel

Janus-Pro-1B: egy könnyített verzió, amely közvetlenül a böngészőben futtatható.

Mindkét verzió nyílt forráskódú a Hugging Face platformon, és MIT licenc alatt került kiadásra, így a fejlesztők szabadon használhatják és módosíthatják őket.

A DeepSeek átfogó áttörése

Most a legizgalmasabb kérdés: amikor a megértéshez és a generáláshoz már nem lesz szükség két külön modellre, a meglévő AI-alkalmazási architektúra kollektívan felbomlik-e?

Azoknak, akik még mindig küzdenek az egy-modális alkalmazásokkal, érdemes megfontolniuk, hogy együttműködő alkalmazásokat fejlesszenek ki a bal és a jobb agyfélteke számára.

Végül is egy olyan modell, amely egyszerre képes játszani a szöveggel és a grafikával, a multimodalitás igazi megtestesítője.

Érdemes megjegyezni, hogy az Janus-Pro kiadása csak egy a DeepSeek közelmúltbeli jelentős áttöréseinek sorában:

A Perplexity integrálta a DeepSeek R1 modellt a mély webes kereséshez

A DeepSeek R1 desztillált verziója 60 token/s lokális következtetési sebességet ér el az iPhone-on.

A DeepSeek AI Assistant az App Store ingyenes listájának élére ugrott

és rendkívül gyors következtetési teljesítményt mutatott a Groq platformon.

Ezek az eredmények a DeepSeek átfogó erejét bizonyítják a mesterséges intelligencia területén, és az Janus-Pro úttörő előrelépése új irányokat nyitott a multimodális mesterséges intelligencia fejlesztése előtt.

Janus pro Kapcsolódó linkek és dokumentumok

A projekt címe:

GitHub tároló

Technikai jelentés

Modell letöltések:

Janus-Pro-7B

Janus-Pro-1B

Gyors tapasztalat:

Nincs telepítés, ingyenes, online használat janus pro

Referenciadokumentáció:

Gyorsindítási útmutató

DeepSeek hivatalos esemény

Végezetül szeretnénk elmondani: Sam Altman cégnevét, az általa megfestett tortát és az általa végiggondolt utat úgy tűnik, hogy átadja ennek a kíváncsiságtól vezérelt kínai cégnek, amely folytatja az intelligencia határainak mélyreható feltárását!

Hasonló hozzászólások

Vélemény, hozzászólás?

Az e-mail címet nem tesszük közzé. A kötelező mezőket * karakterrel jelöltük