Explozie! DeepSeekO explicație detaliată a modelului multimodal Janus-Pro
Cel mai recent model Janus-Pro de la DeepSeek conectează direct "creierele stâng și drept" ale inteligenței artificiale multimodale!
Acest ucigaș cu două fețe, care poate face simultan înțelegerea imaginilor și a textului și generarea de imagini, rescrie regulile industriei cu cadrul său autodezvoltat.
Aceasta nu este o simplă suprapunere a funcțiilor, ci, prin decuplarea căii de codificare vizuală, modelul a realizat adevăratul "o minte, două utilizări".
Modelele multimodale tradiționale sunt ca și cum ai folosi aceeași mână pentru a scrie și a desena, în timp ce Janus-Pro echipează direct IA cu două sisteme neuronale!
Revoluția cadrului: rezolvarea problemei vechi de un secol a multimodalității
Cea mai nemiloasă inovație a Janus-Pro este împărțirea codării vizuale în două canale independente.
Este ca și cum am dota inteligența artificială cu ochiul înțelegerii și cu mâna creației, astfel încât modelul să nu mai întâmpine dificultăți atunci când procesează "descrierea imaginii" și "transformarea textului în imagine".
Cea mai mare descoperire a sa constă în noua sa arhitectură unificată. Această arhitectură constă din trei componente de bază:
Autoencoder: ca model lingvistic de bază
SigLIP-L@384: responsabil pentru codificarea înțelegerii imaginilor
VQ-VAE bazat pe LlamaGen: pentru generarea de imagini
Prin decuplarea codificării vizuale în căi independente, menținând în același timp o arhitectură unificată a transformatorului, Janus-Pro rezolvă în mod ingenios conflictul de rol al modelelor anterioare în codificatorul vizual.
@reach_vb evidențiază descoperirea cheie în arhitectură:
Modelul este construit pe DeepSeek-LLM-1.5b/7b, utilizează SigLIP-L pentru a procesa 384×384 intrări de imagine și decuplează procesul de codificare prin căi specifice sarcinii
Acest design permite modelului să treacă fără probleme de la o sarcină multimodală la alta, menținând în același timp o singură arhitectură Transformer.
Strategia de formare: calea evolutivă către succesul în trei etape
Echipa DeepSeek a adoptat un proces de formare în trei etape atent conceput:
Etapa 1: Pregătirea noilor parametri pe setul de date ImageNet pentru a stabili conexiuni conceptuale între elementele vizuale și lingvistice
Etapa 2: Introducerea unui set de date hibride multimodale pentru ajustarea completă a parametrilor
Etapa 3: Îmbunătățirea capacităților de urmărire a comenzii și de dialog prin reglaje fine supravegheate
De asemenea, au fost efectuate ajustări inovatoare ale raportului de date:
Sarcina de înțelegere a imaginilor: 50% (o creștere semnificativă)
Sarcina de generare a imaginilor: 40
Text sarcină: 10%
@iScienceLuvr subliniază secretul formării:
Proporția sarcinilor text a fost redusă în mod deliberat în timpul celei de-a treia etape de ajustare
Acest lucru obligă modelul să își concentreze puterea de calcul asupra conversiei intermodale
Maestru de performanță
Acest monstru "all-rounder" face ravagii în ceea ce privește cei doi parametri de bază!
Testele oficiale arată că Janus-Pro nu numai că depășește modelul unificat anterior, dar poate chiar să se confrunte cu modele specializate - obținând un scor la fel de mare ca LLaVA în sarcina de înțelegere și depășind DALL-E 3 în calitatea generației!
Cu un scor GenEval de 0,8, face de rușine SD3-Medium
și un scor DPG-Bench de 84,19, calitatea creației sale vizuale este apropiată de cea a designerilor profesioniști
Acest lucru se bazează pe o strategie de formare de 72 de milioane de imagini sintetice și trei etape de formare (formare adaptor → preformare unificată → reglaj fin supravegheat), care a transformat literalmente modelul într-un "maestru multimodal".
@dr_cintas a postat o comparație a măsurătorilor reale:
Rulând o versiune cuantificată pe 4 biți pe un iPhone, viteza de inferență este de aproape 60 token-uri/s
Miniatura 384×384 generată poate citi de fapt textul plăcuței de înmatriculare
În testul de referință de înțelegere multimodală, Janus-Pro-7B a demonstrat o putere uimitoare:
POPĂ: 87.4%
MME-PT: 1567.1
MMBench: 79.2
SEED: 72.1
MMMU: 41.0
MM-Vet: 50.0
În ceea ce privește generarea de imagini, modelul a obținut un scor GenEval de 0,8 și un scor DPG-Bench de 84,19, depășind multe modele obișnuite, inclusiv DALL-E 3 și SD3-Medium.
MIT open source: simte-te liber să te joci!
DeepSeek a răsturnat situația de data aceasta - versiunea dublă 7B/1B este complet open source, iar licența MIT permite modificări comerciale!
Hugging Face poate fi descărcat imediat și chiar și versiunea ușoară 1B poate fi rulată local pe un iPhone.
Dezvoltatorul @angrypenguinPNG a oferit o demonstrație live:
Introduceți "scenă nocturnă oraș viitor" și o vedere stradală cyberpunk a apărut în câteva secunde
Mărește imaginea pentru a examina detaliile scenei, iar modelul poate descrie cu exactitate gradientul luminilor de neon
Valoare practică: reducerea barierei la intrare
Pentru a satisface nevoile diferitelor scenarii, DeepSeek oferă două versiuni:
Janus-Pro-7B: versiunea completă, cu performanțe puternice
Janus-Pro-1B: o versiune ușoară care poate fi rulată direct în browser
Ambele versiuni au fost deschise pe platforma Hugging Face și lansate sub licența MIT, astfel încât dezvoltatorii le pot utiliza și modifica liber.
Descoperirea cuprinzătoare a DeepSeek
Acum, cea mai interesantă întrebare este: atunci când înțelegerea și generarea nu vor mai necesita două modele separate, arhitectura aplicațiilor AI existente va fi perturbată în mod colectiv?
Cei care încă se luptă cu aplicațiile monomodale ar trebui să ia în considerare dezvoltarea de aplicații colaborative pentru creierul stâng și cel drept.
La urma urmei, un model care poate juca simultan cu text și grafică este adevărata întruchipare a multimodalității.
Este demn de remarcat faptul că lansarea Janus-Pro este doar una dintr-o serie de descoperiri majore recente ale DeepSeek:
Perplexity a integrat modelul DeepSeek R1 pentru căutarea web profundă
Versiunea distilată DeepSeek R1 atinge o viteză de inferență locală de 60 token-uri/s pe iPhone
DeepSeek AI Assistant a sărit în fruntea listei de aplicații gratuite din App Store
și a demonstrat performanțe de inferență extrem de rapide pe platforma Groq.
Aceste realizări demonstrează puterea cuprinzătoare a DeepSeek în domeniul IA, iar progresul revoluționar al Janus-Pro a deschis noi direcții pentru dezvoltarea IA multimodală.
Janus pro Linkuri și documente conexe
Adresa proiectului:
Descărcări de model:
Experiență rapidă:
Fără implementare, gratuit, utilizare online janus pro
Documentație de referință:
În cele din urmă, am dori să spunem: Numele companiei lui Sam Altman, plăcinta pe care a pictat-o și calea la care s-a gândit par să fie transmise acestei companii chineze conduse de curiozitate, care va continua explorarea aprofundată a limitelor inteligenței!