Explosion! DeepSeeks kinesiska nyårsgåva - en detaljerad förklaring av den multimodala modellen Janus-Pro
DeepSeeks senaste Janus-Pro-modell kopplar direkt samman "vänster och höger hjärna" inom multimodal AI!
Denna dubbelriktade mördare, som samtidigt kan förstå bilder och text och generera bilder, håller på att skriva om branschreglerna med sitt egenutvecklade ramverk.
Detta är inte en enkel superposition av funktioner, utan genom att frikoppla den visuella kodningsvägen har modellen uppnått äkta "ett sinne, två användningsområden".
Traditionella multimodala modeller är som att använda samma hand för att skriva och rita, medan Janus-Pro direkt utrustar AI:n med två neurala system!
Ramverksrevolution: att lösa det hundraåriga problemet med multimodalitet
Den mest hänsynslösa innovationen i Janus-Pro är att dela upp den visuella kodningen i två oberoende kanaler.
Det är som att utrusta AI:n med ett förstående öga och en skapande hand, så att modellen inte längre behöver kämpa med att bearbeta "bildbeskrivning" och "text-till-bild".
Det största genombrottet ligger i den helt nya designen med en enhetlig arkitektur. Denna arkitektur består av tre kärnkomponenter:
Autoencoder: som den centrala språkmodellen
SigLIP-L@384: ansvarig för kodning av bildförståelse
VQ-VAE baserad på LlamaGen: för bildgenerering
Genom att frikoppla den visuella kodningen till oberoende vägar och samtidigt behålla en enhetlig transformatorarkitektur löser Janus-Pro på ett genialt sätt den rollkonflikt som tidigare modeller haft i den visuella kodaren.
@reach_vb pekar ut det viktigaste genombrottet i arkitekturen:
Modellen bygger på DeepSeek-LLM-1.5b/7b, använder SigLIP-L för att bearbeta 384×384 bildinmatningar och frikopplar kodningsprocessen genom uppgiftsspecifika vägar
Denna design gör att modellen sömlöst kan växla mellan multimodala uppgifter samtidigt som den behåller en enda Transformer-arkitektur.
Utbildningsstrategi: den evolutionära vägen till framgång i tre steg
DeepSeek-teamet använde sig av en noggrant utformad utbildningsprocess i tre steg:
Steg 1: Träna nya parametrar på ImageNet-datasetet för att etablera konceptuella kopplingar mellan visuella och språkliga element
Steg 2: Introducera en multimodal hybriddatauppsättning för fullständig finjustering av parametrar
Steg 3: Förbättra förmågan att följa kommandon och dialog genom övervakad finjustering
Innovativa justeringar har också gjorts av dataförhållandet:
Bildförståelseuppgift: 50% (en signifikant ökning)
Bildgenereringsuppgift: 40
Textuppgift: 10%
@iScienceLuvr pekar ut hemligheten med träning:
Andelen textuppgifter minskades medvetet under den tredje fasen av finjusteringen
Detta tvingar modellen att fokusera sin datorkraft på tvärmodal konvertering
Prestationsmästare
Detta "allround"-monster gör succé på de två viktigaste mätpunkterna!
Officiella tester visar att Janus-Pro inte bara slår den tidigare enhetliga modellen, utan även kan ta upp kampen med specialiserade modeller - med lika höga poäng som LLaVA i förståelseuppgiften och bättre än DALL-E 3 i generationskvalitet!
Med en GenEval-poäng på 0,8 gör den SD3-Medium till en skamfläck
och en DPG-Bench-poäng på 84,19, är dess visuella skapandekvalitet nära den hos professionella designers
Detta baseras på en träningsstrategi med 72 miljoner syntetiska bilder och tre träningssteg (adapterträning → enhetlig förträning → övervakad finjustering), vilket bokstavligen har gjort modellen till en "multimodal mästare".
@dr_cintas publicerade en jämförelse av faktiska mätningar:
När man kör en 4-bitars kvantiserad version på en iPhone är inferenshastigheten nästan 60 tokens/s
Den genererade miniatyrbilden på 384×384 kan faktiskt läsa texten på registreringsskylten
I benchmark-testet för multimodal förståelse visade Janus-Pro-7B en fantastisk styrka:
PÅVE: 87.4%
MME-PT: 1567.1
MMBench: 79,2
SEED: 72,1
MMMU: 41,0
MM-Vet: 50,0
När det gäller bildgenerering uppnådde modellen ett GenEval-resultat på 0,8 och ett DPG-Bench-resultat på 84,19, vilket överträffar många vanliga modeller, inklusive DALL-E 3 och SD3-Medium.
MIT öppen källkod: känn dig fri att spela!
DeepSeek har vänt på steken den här gången - dubbelversionen 7B/1B är helt öppen källkod, och MIT-licensen tillåter kommersiella modifieringar!
Hugging Face kan laddas ner direkt och även lättviktsversionen 1B kan köras lokalt på en iPhone.
Utvecklaren @angrypenguinPNG gav en live-demonstration:
Skriv in "future city night scene" och en cyberpunk-gatuvy dök upp på några sekunder
Zooma in för att undersöka detaljerna i scenen, och modellen kan exakt beskriva neonljusens gradient
Praktiskt värde: sänka inträdeshindret
För att tillgodose behoven i olika scenarier finns DeepSeek i två versioner:
Janus-Pro-7B: den fullständiga versionen, med kraftfull prestanda
Janus-Pro-1B: en lättviktsversion som kan köras direkt i webbläsaren
Båda versionerna är open-sourcade på Hugging Face-plattformen och släppta under MIT-licensen, så att utvecklare fritt kan använda och modifiera dem.
DeepSeeks omfattande genombrott
Den mest spännande frågan är nu: när förståelse och generering inte längre kräver två separata modeller, kommer då den befintliga arkitekturen för AI-applikationer att förändras på ett kollektivt sätt?
De som fortfarande kämpar med enmodala applikationer bör överväga att utveckla samarbetsapplikationer för vänster och höger hjärnhalva.
En modell som samtidigt kan spela med både text och grafik är trots allt det sanna förkroppsligandet av multimodalitet.
Det är värt att notera att lanseringen av Janus-Pro bara är ett av en rad stora genombrott som DeepSeek gjort på senare tid:
Perplexity har integrerat DeepSeek R1-modellen för sökning på djupa webben
DeepSeek R1 destillerad version uppnår en lokal inferenshastighet på 60 tokens/s på iPhone
DeepSeek AI Assistant har hoppat upp till toppen av gratislistan i App Store
och demonstrerade extremt snabb inferensprestanda på Groq-plattformen.
Dessa prestationer visar på DeepSeeks omfattande styrka inom AI-området, och de banbrytande framstegen med Janus-Pro har öppnat upp nya vägar för utvecklingen av multimodal AI.
Janus pro Relaterade länkar och dokument
Projektets adress:
Modellnedladdningar:
Snabb erfarenhet:
Ingen utplacering, gratis, online-användning janus pro
Referensdokumentation:
Slutligen skulle vi vilja säga: Sam Altmans företagsnamn, den paj han har målat och den väg han har funderat på verkar föras vidare till detta nyfikenhetsdrivna kinesiska företag, som kommer att fortsätta den djupgående utforskningen av intelligensens gränser!