Explosion! DeepSeeks kinesiska nyårsgåva - en detaljerad förklaring av den multimodala modellen Janus-Pro

DeepSeeks senaste Janus-Pro-modell kopplar direkt samman "vänster och höger hjärna" inom multimodal AI!

Denna dubbelriktade mördare, som samtidigt kan förstå bilder och text och generera bilder, håller på att skriva om branschreglerna med sitt egenutvecklade ramverk.

Detta är inte en enkel superposition av funktioner, utan genom att frikoppla den visuella kodningsvägen har modellen uppnått äkta "ett sinne, två användningsområden".

Traditionella multimodala modeller är som att använda samma hand för att skriva och rita, medan Janus-Pro direkt utrustar AI:n med två neurala system!

Ramverksrevolution: att lösa det hundraåriga problemet med multimodalitet

Den mest hänsynslösa innovationen i Janus-Pro är att dela upp den visuella kodningen i två oberoende kanaler.

Det är som att utrusta AI:n med ett förstående öga och en skapande hand, så att modellen inte längre behöver kämpa med att bearbeta "bildbeskrivning" och "text-till-bild".

Det största genombrottet ligger i den helt nya designen med en enhetlig arkitektur. Denna arkitektur består av tre kärnkomponenter:

Autoencoder: som den centrala språkmodellen

SigLIP-L@384: ansvarig för kodning av bildförståelse

VQ-VAE baserad på LlamaGen: för bildgenerering

Genom att frikoppla den visuella kodningen till oberoende vägar och samtidigt behålla en enhetlig transformatorarkitektur löser Janus-Pro på ett genialt sätt den rollkonflikt som tidigare modeller haft i den visuella kodaren.

@reach_vb pekar ut det viktigaste genombrottet i arkitekturen:

Modellen bygger på DeepSeek-LLM-1.5b/7b, använder SigLIP-L för att bearbeta 384×384 bildinmatningar och frikopplar kodningsprocessen genom uppgiftsspecifika vägar

Denna design gör att modellen sömlöst kan växla mellan multimodala uppgifter samtidigt som den behåller en enda Transformer-arkitektur.

Utbildningsstrategi: den evolutionära vägen till framgång i tre steg

DeepSeek-teamet använde sig av en noggrant utformad utbildningsprocess i tre steg:

Steg 1: Träna nya parametrar på ImageNet-datasetet för att etablera konceptuella kopplingar mellan visuella och språkliga element

Steg 2: Introducera en multimodal hybriddatauppsättning för fullständig finjustering av parametrar

Steg 3: Förbättra förmågan att följa kommandon och dialog genom övervakad finjustering

Innovativa justeringar har också gjorts av dataförhållandet:

Bildförståelseuppgift: 50% (en signifikant ökning)

Bildgenereringsuppgift: 40

Textuppgift: 10%

@iScienceLuvr pekar ut hemligheten med träning:

Andelen textuppgifter minskades medvetet under den tredje fasen av finjusteringen

Detta tvingar modellen att fokusera sin datorkraft på tvärmodal konvertering

Prestationsmästare

Detta "allround"-monster gör succé på de två viktigaste mätpunkterna!

Officiella tester visar att Janus-Pro inte bara slår den tidigare enhetliga modellen, utan även kan ta upp kampen med specialiserade modeller - med lika höga poäng som LLaVA i förståelseuppgiften och bättre än DALL-E 3 i generationskvalitet!

Med en GenEval-poäng på 0,8 gör den SD3-Medium till en skamfläck

och en DPG-Bench-poäng på 84,19, är dess visuella skapandekvalitet nära den hos professionella designers

Detta baseras på en träningsstrategi med 72 miljoner syntetiska bilder och tre träningssteg (adapterträning → enhetlig förträning → övervakad finjustering), vilket bokstavligen har gjort modellen till en "multimodal mästare".

@dr_cintas publicerade en jämförelse av faktiska mätningar:

När man kör en 4-bitars kvantiserad version på en iPhone är inferenshastigheten nästan 60 tokens/s

Den genererade miniatyrbilden på 384×384 kan faktiskt läsa texten på registreringsskylten

I benchmark-testet för multimodal förståelse visade Janus-Pro-7B en fantastisk styrka:

PÅVE: 87.4%

MME-PT: 1567.1

MMBench: 79,2

SEED: 72,1

MMMU: 41,0

MM-Vet: 50,0

När det gäller bildgenerering uppnådde modellen ett GenEval-resultat på 0,8 och ett DPG-Bench-resultat på 84,19, vilket överträffar många vanliga modeller, inklusive DALL-E 3 och SD3-Medium.

MIT öppen källkod: känn dig fri att spela!

DeepSeek har vänt på steken den här gången - dubbelversionen 7B/1B är helt öppen källkod, och MIT-licensen tillåter kommersiella modifieringar!

Hugging Face kan laddas ner direkt och även lättviktsversionen 1B kan köras lokalt på en iPhone.

Utvecklaren @angrypenguinPNG gav en live-demonstration:

Skriv in "future city night scene" och en cyberpunk-gatuvy dök upp på några sekunder

Zooma in för att undersöka detaljerna i scenen, och modellen kan exakt beskriva neonljusens gradient

Praktiskt värde: sänka inträdeshindret

För att tillgodose behoven i olika scenarier finns DeepSeek i två versioner:

Janus-Pro-7B: den fullständiga versionen, med kraftfull prestanda

Janus-Pro-1B: en lättviktsversion som kan köras direkt i webbläsaren

Båda versionerna är open-sourcade på Hugging Face-plattformen och släppta under MIT-licensen, så att utvecklare fritt kan använda och modifiera dem.

DeepSeeks omfattande genombrott

Den mest spännande frågan är nu: när förståelse och generering inte längre kräver två separata modeller, kommer då den befintliga arkitekturen för AI-applikationer att förändras på ett kollektivt sätt?

De som fortfarande kämpar med enmodala applikationer bör överväga att utveckla samarbetsapplikationer för vänster och höger hjärnhalva.

En modell som samtidigt kan spela med både text och grafik är trots allt det sanna förkroppsligandet av multimodalitet.

Det är värt att notera att lanseringen av Janus-Pro bara är ett av en rad stora genombrott som DeepSeek gjort på senare tid:

Perplexity har integrerat DeepSeek R1-modellen för sökning på djupa webben

DeepSeek R1 destillerad version uppnår en lokal inferenshastighet på 60 tokens/s på iPhone

DeepSeek AI Assistant har hoppat upp till toppen av gratislistan i App Store

och demonstrerade extremt snabb inferensprestanda på Groq-plattformen.

Dessa prestationer visar på DeepSeeks omfattande styrka inom AI-området, och de banbrytande framstegen med Janus-Pro har öppnat upp nya vägar för utvecklingen av multimodal AI.

Janus pro Relaterade länkar och dokument

Projektets adress:

GitHub-förvar

Teknisk rapport

Modellnedladdningar:

Janus-Pro-7B

Janus-Pro-1B

Snabb erfarenhet:

Ingen utplacering, gratis, online-användning janus pro

Referensdokumentation:

Snabbstartsguide

DeepSeek officiellt evenemang

Slutligen skulle vi vilja säga: Sam Altmans företagsnamn, den paj han har målat och den väg han har funderat på verkar föras vidare till detta nyfikenhetsdrivna kinesiska företag, som kommer att fortsätta den djupgående utforskningen av intelligensens gränser!

Liknande inlägg

Lämna ett svar

Din e-postadress kommer inte publiceras. Obligatoriska fält är märkta *