Esplosione! DeepSeekIl regalo di Capodanno cinese: una spiegazione dettagliata del modello multimodale Janus-Pro
L'ultimo modello Janus-Pro di DeepSeek collega direttamente i "cervelli destro e sinistro" dell'IA multimodale!
Questo killer bifronte, in grado di comprendere simultaneamente immagini e testi e di generare immagini, sta riscrivendo le regole del settore con il suo framework sviluppato in proprio.
Non si tratta di una semplice sovrapposizione di funzioni, ma disaccoppiando il percorso di codifica visiva, il modello ha raggiunto il vero "una mente, due usi".
I modelli multimodali tradizionali sono come usare la stessa mano per scrivere e disegnare, mentre Janus-Pro dota direttamente l'IA di due sistemi neurali!
Rivoluzione dei quadri: risolvere il problema secolare della multimodalità
L'innovazione più spietata dell'Janus-Pro è la suddivisione della codifica visiva in due canali indipendenti.
È come dotare l'IA dell'occhio della comprensione e della mano della creazione, in modo che il modello non abbia più difficoltà a elaborare la "descrizione dell'immagine" e il "testo-immagine".
Il suo più grande punto di forza è il nuovo design dell'architettura unificata. Questa architettura è composta da tre componenti fondamentali:
Autoencoder: come modello linguistico di base
SigLIP-L@384: responsabile della codifica della comprensione dell'immagine
VQ-VAE basato su LlamaGen: per la generazione di immagini
Disaccoppiando la codifica visiva in percorsi indipendenti, pur mantenendo un'architettura unificata del trasformatore, Janus-Pro risolve in modo ingegnoso il conflitto di ruoli dei modelli precedenti nel codificatore visivo.
@reach_vb sottolinea la svolta fondamentale dell'architettura:
Il modello è costruito su DeepSeek-LLM-1.5b/7b, utilizza SigLIP-L per elaborare 384×384 immagini in ingresso e disaccoppia il processo di codifica attraverso percorsi specifici per ogni attività.
Questo design consente al modello di passare senza problemi da un'attività multimodale all'altra, mantenendo un'unica architettura del trasformatore.
Strategia di formazione: il percorso evolutivo per il successo in tre fasi
Il team di DeepSeek ha adottato un processo di formazione accuratamente progettato in tre fasi:
Fase 1: Addestrare nuovi parametri sul set di dati ImageNet per stabilire connessioni concettuali tra elementi visivi e linguistici.
Fase 2: introduzione di un set di dati ibridi multimodali per la messa a punto completa dei parametri
Fase 3: migliorare le capacità di seguire i comandi e di dialogo attraverso una messa a punto supervisionata.
Sono stati apportati anche aggiustamenti innovativi al rapporto tra i dati:
Compito di comprensione dell'immagine: 50% (un aumento significativo)
Compito di generazione dell'immagine: 40
Compito di testo: 10%
@iScienceLuvr sottolinea il segreto dell'allenamento:
La percentuale di compiti testuali è stata deliberatamente ridotta durante la terza fase di messa a punto.
Questo costringe il modello a concentrare la sua potenza di calcolo sulla conversione intermodale.
Maestro delle prestazioni
Questo mostro "tuttofare" sta spaccando nelle due metriche principali!
I test ufficiali dimostrano che l'Janus-Pro non solo batte il precedente modello unificato, ma può addirittura affrontare i modelli specializzati in un testa a testa, ottenendo un punteggio pari a quello di LLaVA nel compito di comprensione e superando DALL-E 3 nella qualità della generazione!
Con un punteggio GenEval di 0,8, mette in ombra l'SD3-Medium.
e un punteggio DPG-Bench di 84,19, la sua qualità di creazione visiva è vicina a quella dei designer professionisti.
Ciò si basa su una strategia di addestramento di 72 milioni di immagini sintetiche e su tre fasi di addestramento (addestramento adattatore → pre-addestramento unificato → messa a punto supervisionata), che ha letteralmente trasformato il modello in un "maestro multimodale".
@dr_cintas ha pubblicato un confronto delle misure effettive:
Eseguendo una versione quantizzata a 4 bit su un iPhone, la velocità di inferenza è di quasi 60 token/s.
La miniatura generata, 384×384, permette di leggere il testo della targa.
Nel test di riferimento per la comprensione multimodale, l'Janus-Pro-7B ha dimostrato una forza sorprendente:
PAPA: 87.4%
MME-PT: 1567.1
MMBench: 79,2
SEME: 72,1
MMMU: 41,0
MM-Vet: 50,0
In termini di generazione di immagini, il modello ha ottenuto un punteggio GenEval di 0,8 e un punteggio DPG-Bench di 84,19, superando molti modelli mainstream tra cui DALL-E 3 e SD3-Medium.
MIT open source: sentitevi liberi di giocare!
Questa volta DeepSeek ha cambiato le carte in tavola: la versione doppia 7B/1B è completamente open source e la licenza MIT consente modifiche commerciali!
Hugging Face può essere scaricato immediatamente e anche la versione leggera 1B può essere eseguita in locale su un iPhone.
Lo sviluppatore @angrypenguinPNG ha dato una dimostrazione dal vivo:
Digitando "scena notturna di città futura", in pochi secondi è apparsa una street view cyberpunk.
Zoomando per esaminare i dettagli della scena, il modello è in grado di descrivere accuratamente il gradiente delle luci al neon.
Valore pratico: abbassare la barriera d'ingresso
Per soddisfare le esigenze di diversi scenari, DeepSeek offre due versioni:
Janus-Pro-7B: la versione completa, con potenti prestazioni
Janus-Pro-1B: una versione leggera che può essere eseguita direttamente nel browser
Entrambe le versioni sono state aperte sulla piattaforma Hugging Face e rilasciate sotto licenza MIT, in modo che gli sviluppatori possano utilizzarle e modificarle liberamente.
La scoperta completa di DeepSeek
Ora la domanda più interessante è: quando la comprensione e la generazione non richiederanno più due modelli separati, l'attuale architettura applicativa dell'IA sarà collettivamente stravolta?
Chi è ancora alle prese con applicazioni monomodali dovrebbe prendere in considerazione lo sviluppo di applicazioni collaborative per il cervello destro e sinistro.
Dopo tutto, un modello che può giocare contemporaneamente con il testo e la grafica è la vera incarnazione della multimodalità.
Vale la pena di notare che il rilascio di Janus-Pro è solo una delle recenti scoperte di DeepSeek:
Perplexity ha integrato il modello DeepSeek R1 per la ricerca nel deep web.
DeepSeek R1 raggiunge una velocità di inferenza locale di 60 token/s su iPhone.
L'assistente AI DeepSeek è balzato in cima alla lista delle applicazioni gratuite dell'App Store
e ha dimostrato prestazioni di inferenza estremamente veloci sulla piattaforma Groq.
Questi risultati dimostrano la forza globale di DeepSeek nel campo dell'IA e i progressi rivoluzionari di Janus-Pro hanno aperto nuove direzioni per lo sviluppo dell'IA multimodale.
Janus pro Link e documenti correlati
Indirizzo del progetto:
Download del modello:
Esperienza rapida:
Nessuna distribuzione, uso gratuito e online janus pro
Documentazione di riferimento:
Infine, vorremmo dire: Il nome della società di Sam Altman, la torta che ha dipinto e il percorso che ha pensato sembrano essere passati a questa società cinese guidata dalla curiosità, che continuerà l'esplorazione approfondita dei confini dell'intelligenza!