Exploze! DeepSeekdárek k čínskému Novému roku - podrobné vysvětlení multimodálního modelu Janus-Pro
Nejnovější model Janus-Pro společnosti DeepSeek přímo propojuje "levý a pravý mozek" multimodální umělé inteligence!
Tento dvoustranný zabiják, který dokáže současně porozumět obrazu a textu a generovat obrázky, přepisuje pravidla odvětví díky svému vlastnímu vyvinutému rámci.
Nejedná se o prostou superpozici funkcí, ale oddělením cesty vizuálního kódování model dosáhl skutečného "jedna mysl, dvě použití".
Tradiční multimodální modely jsou jako psaní a kreslení stejnou rukou, zatímco Janus-Pro vybavuje umělou inteligenci přímo dvěma neuronovými systémy!
Rámcová revoluce: řešení stoletého problému multimodality
Nejdůkladnější inovací Janus-Pro je rozdělení vizuálního kódování do dvou nezávislých kanálů.
Je to jako vybavit umělou inteligenci okem porozumění a rukou tvorby, takže model již nebude mít potíže při zpracování "popisu obrázku" a "převodu textu na obrázek".
Jeho největší průlom spočívá ve zcela novém designu sjednocené architektury. Tato architektura se skládá ze tří základních komponent:
Autoenkodér: jako základní jazykový model
SigLIP-L@384: zodpovědný za kódování porozumění obrazu
VQ-VAE založený na LlamaGen: pro generování obrázků
Oddělením vizuálního kódování do nezávislých cest při zachování jednotné architektury transformátoru Janus-Pro důmyslně řeší konflikt rolí předchozích modelů ve vizuálním kodéru.
@reach_vb upozorňuje na klíčový průlom v architektuře:
Model je postaven na DeepSeek-LLM-1.5b/7b, používá SigLIP-L ke zpracování obrazových vstupů 384×384 a odděluje proces kódování prostřednictvím cest specifických pro jednotlivé úlohy.
Tato konstrukce umožňuje modelu plynule přepínat mezi multimodálními úlohami při zachování jediné architektury transformátoru.
Strategie školení: evoluční cesta k úspěchu ve třech krocích
Tým DeepSeek přijal pečlivě navržený třístupňový proces školení:
Fáze 1: Trénink nových parametrů na datové sadě ImageNet s cílem vytvořit konceptuální spojení mezi vizuálními a jazykovými prvky.
Fáze 2: Zavedení multimodálního hybridního souboru dat pro úplné doladění parametrů
Fáze 3: Zlepšení schopnosti sledovat příkazy a vést dialogy prostřednictvím doladění pod dohledem
Byly také provedeny inovativní úpravy poměru dat:
Úloha porozumění obrazu: 50% (výrazné zvýšení)
Úloha generování obrázků: 40
Textový úkol: 10%
@iScienceLuvr upozorňuje na tajemství tréninku:
Podíl textových úloh byl ve třetí fázi dolaďování záměrně snížen.
To nutí model zaměřit svůj výpočetní výkon na konverzi mezi jednotlivými druhy dopravy.
Mistr výkonu
Toto "všestranné" monstrum zabíjí ve dvou základních ukazatelích!
Oficiální testy ukazují, že Janus-Pro nejenže překonává předchozí unifikovaný model, ale dokonce se může rovnat specializovaným modelům - v úloze porozumění dosahuje stejně vysokých výsledků jako LLaVA a v kvalitě generování překonává DALL-E 3!
S hodnotou GenEval 0,8 zahanbuje SD3-Medium.
a skóre DPG-Bench 84,19, jeho kvalita vizuální tvorby se blíží kvalitě profesionálních designérů.
To je založeno na strategii tréninku 72 milionů syntetických snímků a třech fázích tréninku (adaptační trénink → sjednocený předtrénink → doladění pod dohledem), díky čemuž se z modelu stal doslova "multimodální mistr".
@dr_cintas zveřejnil srovnání skutečných měření:
Při spuštění 4bitové kvantizované verze na iPhonu je rychlost odvozování téměř 60 tokenů/s.
Vygenerovaná miniatura 384×384 skutečně dokáže přečíst text SPZ.
Ve srovnávacím testu multimodálního porozumění prokázal Janus-Pro-7B úžasnou sílu:
PAPEŽ: 87.4%
MME-PT: 1567.1
MMBench: 79,2
SEED: 72.1
MMMU: 41.0
MM-Vet: 50.0
Pokud jde o generování obrazu, model dosáhl skóre GenEval 0,8 a skóre DPG-Bench 84,19, čímž překonal mnoho běžných modelů včetně DALL-E 3 a SD3-Medium.
MIT open source: neváhejte si hrát!
DeepSeek tentokrát obrátil karty - duální verze 7B/1B je plně open source a licence MIT umožňuje komerční úpravy!
Aplikaci Hugging Face si můžete stáhnout okamžitě a i odlehčenou verzi 1B lze spustit lokálně na iPhonu.
Vývojář @angrypenguinPNG předvedl živou ukázku:
Zadejte "future city night scene" a během několika sekund se objevil kyberpunkový pohled na ulici.
Přibližte si scénu a prozkoumejte její detaily, model dokáže přesně popsat sklon neonových světel.
Praktická hodnota: snížení vstupní bariéry
Pro potřeby různých scénářů nabízí DeepSeek dvě verze:
Janus-Pro-7B: plná verze s vysokým výkonem
Janus-Pro-1B: odlehčená verze, kterou lze spustit přímo v prohlížeči.
Obě verze byly otevřeny na platformě Hugging Face a uvolněny pod licencí MIT, takže je vývojáři mohou volně používat a upravovat.
Komplexní průlom společnosti DeepSeek
Nejzajímavější otázkou nyní je: až porozumění a generování již nebudou vyžadovat dva oddělené modely, dojde ke kolektivnímu narušení stávající architektury aplikací AI?
Ti, kteří se stále potýkají s multimodálními aplikacemi, by měli zvážit vývoj kolaborativních aplikací pro levý a pravý mozek.
Koneckonců model, který si může současně hrát s textem i grafikou, je skutečným ztělesněním multimodality.
Stojí za zmínku, že vydání Janus-Pro je jen jedním z řady nedávných významných objevů společnosti DeepSeek:
Společnost Perplexity integrovala model DeepSeek R1 pro hloubkové vyhledávání na webu.
DeepSeek R1 v destilované verzi dosahuje na iPhonu rychlosti lokálního odvozování 60 tokenů/s.
Asistent umělé inteligence DeepSeek se dostal na první místo v seznamu bezplatných aplikací App Store
a prokázal extrémně rychlý výkon inference na platformě Groq.
Tyto úspěchy ukazují komplexní sílu společnosti DeepSeek v oblasti umělé inteligence a průlomový pokrok Janus-Pro otevřel nové směry vývoje multimodální umělé inteligence.
Janus pro Související odkazy a dokumenty
Adresa projektu:
Stažené modely:
Rychlé zkušenosti:
Bez nasazení, zdarma, online použití janus pro
Referenční dokumentace:
Závěrem bychom chtěli říci: Zdá se, že jméno společnosti Sama Altmana, koláč, který namaloval, a cesta, o které přemýšlel, se přenášejí na tuto čínskou společnost, která se zaměřuje na zvědavost a bude pokračovat v hloubkovém zkoumání hranic inteligence!