Eksplosion! DeepSeek's kinesiske nytårsgave - en detaljeret forklaring af den multimodale model Janus-Pro

DeepSeeks seneste Janus-Pro-model forbinder direkte "venstre og højre hjernehalvdel" i multimodal AI!

Denne dobbelte dræber, som både kan forstå billeder og tekst og generere billeder, er ved at omskrive reglerne i branchen med sin egenudviklede ramme.

Det er ikke en simpel overlejring af funktioner, men ved at afkoble den visuelle kodningsvej har modellen opnået ægte "et sind, to anvendelser".

Traditionelle multimodale modeller svarer til at bruge den samme hånd til at skrive og tegne, mens Janus-Pro direkte udstyrer AI'en med to neurale systemer!

Framework-revolution: Løsning af det århundredgamle problem med multimodalitet

Den mest hensynsløse nyskabelse i Janus-Pro er at opdele den visuelle kodning i to uafhængige kanaler.

Det er som at udstyre AI'en med forståelsens øje og skabelsens hånd, så modellen ikke længere kæmper, når den behandler "billedbeskrivelse" og "tekst-til-billede".

Dens største gennembrud ligger i dens helt nye samlede arkitekturdesign. Denne arkitektur består af tre kernekomponenter:

Autoencoder: som den centrale sprogmodel

SigLIP-L@384: ansvarlig for kodning af billedforståelse

VQ-VAE baseret på LlamaGen: til billedgenerering

Ved at afkoble den visuelle kodning i uafhængige stier og samtidig bevare en samlet transformerarkitektur løser Janus-Pro på genial vis den rollekonflikt, som tidligere modeller har haft i den visuelle koder.

@reach_vb påpeger det vigtigste gennembrud i arkitekturen:

Modellen er bygget på DeepSeek-LLM-1.5b/7b, bruger SigLIP-L til at behandle 384×384 billedinput og afkobler kodningsprocessen gennem opgavespecifikke stier

Dette design gør det muligt for modellen at skifte problemfrit mellem multimodale opgaver og samtidig bevare en enkelt Transformer-arkitektur.

Træningsstrategi: den evolutionære vej til succes i tre trin

DeepSeek-teamet anvendte en omhyggeligt designet træningsproces i tre faser:

Fase 1: Træn nye parametre på ImageNet-datasættet for at etablere konceptuelle forbindelser mellem visuelle og sproglige elementer

Fase 2: Introducer et multimodalt hybriddatasæt til fuld finjustering af parametre

Fase 3: Forbedre evnen til at følge kommandoer og dialog gennem overvåget finjustering

Der er også foretaget innovative justeringer af dataforholdet:

Billedforståelsesopgave: 50% (en signifikant stigning)

Billedgenereringsopgave: 40

Tekstopgave: 10%

@iScienceLuvr påpeger hemmeligheden bag træning:

Andelen af tekstopgaver blev bevidst reduceret i den tredje fase af finjusteringen

Det tvinger modellen til at fokusere sin computerkraft på tværmodal konvertering.

Performance master

Dette "allrounder"-monster gør det godt på de to vigtigste parametre!

Officielle tests viser, at Janus-Pro ikke kun slår den tidligere unified-model, men endda kan tage kampen op med specialiserede modeller - den scorer lige så højt som LLaVA i forståelsesopgaven og overgår DALL-E 3 i generationskvalitet!

Med en GenEval-score på 0,8 gør den SD3-Medium til skamme

og en DPG-Bench-score på 84,19 er den visuelle kvalitet tæt på professionelle designeres.

Dette er baseret på en træningsstrategi med 72 millioner syntetiske billeder og tre træningsfaser (adaptertræning → samlet prætræning → overvåget finjustering), som bogstaveligt talt har gjort modellen til en "multimodal mester".

@dr_cintas postede en sammenligning af faktiske målinger:

Når man kører en 4-bit kvantiseret version på en iPhone, er inferenshastigheden næsten 60 tokens/s

Den genererede 384×384 thumbnail kan faktisk læse nummerpladeteksten

I benchmark-testen for multimodal forståelse viste Janus-Pro-7B en fantastisk styrke:

PAVE: 87.4%

MME-PT: 1567.1

MMBench: 79,2

SEED: 72,1

MMMU: 41,0

MM-Vet: 50,0

Med hensyn til billedgenerering opnåede modellen en GenEval-score på 0,8 og en DPG-Bench-score på 84,19, hvilket overgår mange mainstream-modeller, herunder DALL-E 3 og SD3-Medium.

MIT open source: du er velkommen til at lege!

DeepSeek har vendt bøtten denne gang - 7B/1B dual-versionen er fuldt ud open source, og MIT-licensen tillader kommercielle ændringer!

Hugging Face kan downloades med det samme, og selv letvægtsversionen 1B kan køres lokalt på en iPhone.

Udvikler @angrypenguinPNG gav en live-demonstration:

Indtast "future city night scene", og en cyberpunk-gadevisning dukkede op på få sekunder.

Zoom ind for at undersøge detaljerne i scenen, og modellen kan nøjagtigt beskrive gradienten i neonlysene

Praktisk værdi: sænk adgangsbarrieren

For at imødekomme behovene i forskellige scenarier tilbyder DeepSeek to versioner:

Janus-Pro-7B: den fulde version med kraftig ydeevne

Janus-Pro-1B: en letvægtsversion, der kan køres direkte i browseren

Begge versioner er open source på Hugging Face-platformen og udgivet under MIT-licensen, så udviklere frit kan bruge og ændre dem.

DeepSeeks omfattende gennembrud

Nu er det mest spændende spørgsmål: Når forståelse og generering ikke længere kræver to separate modeller, vil den eksisterende AI-applikationsarkitektur så blive kollektivt forstyrret?

De, der stadig kæmper med enkeltmodale applikationer, bør overveje at udvikle samarbejdsapplikationer til venstre og højre hjernehalvdel.

Når alt kommer til alt, er en model, der samtidig kan spille med både tekst og grafik, den sande legemliggørelse af multimodalitet.

Det er værd at bemærke, at udgivelsen af Janus-Pro blot er et af en række nylige store gennembrud fra DeepSeek:

Perplexity har integreret DeepSeek R1-modellen til dyb websøgning

DeepSeek R1-destilleret version opnår en lokal inferenshastighed på 60 tokens/s på iPhone

DeepSeek AI Assistant er sprunget til tops på App Stores gratisliste

og demonstrerede ekstremt hurtig udledningsydelse på Groq-platformen.

Disse resultater viser DeepSeeks omfattende styrke inden for kunstig intelligens, og de banebrydende fremskridt med Janus-Pro har åbnet nye veje for udviklingen af multimodal kunstig intelligens.

Janus pro Relaterede links og dokumenter

Projektets adresse:

GitHub-arkiv

Teknisk rapport

Download af modeller:

Janus-Pro-7B

Janus-Pro-1B

Hurtig oplevelse:

Ingen udrulning, gratis, online brug janus pro

Referencedokumentation:

Hurtig start-guide

DeepSeek officiel begivenhed

Til sidst vil vi gerne sige: Sam Altmans firmanavn, den kage, han har malet, og den vej, han har tænkt på, ser ud til at blive givet videre til denne nysgerrighedsdrevne kinesiske virksomhed, som vil fortsætte den dybtgående udforskning af intelligensens grænser!

Lignende indlæg

Skriv et svar

Din e-mailadresse vil ikke blive publiceret. Krævede felter er markeret med *