deepseeks billige, højtydende open source-model er gået viralt. Et stort antal nye brugere har registreret sig på deepseeks hjemmeside, hvilket gentagne gange har fået hjemmesiden til at gå ned.
Med den hurtige udvikling af kunstig intelligens ændrer store sprogmodeller (LLM'er) alle aspekter af vores arbejde og liv.
Men den har også oplevet mange vanskeligheder og udfordringer i løbet af den seneste tid. Og på dette område skiller DeepSeek sig ud med sin innovative teknologi og enestående ydeevne.
Vi dykker ned i Janus Pro DeepSeek, den seneste AI-model og DeepSeeks seneste open source multimodale store model. Lær om dens tekniske funktioner, udviklingshistorie og praktiske anvendelsesværdi.
Hvad er Janus Pro DeepSeek?

Janus Pro er en open source multimodal AI-model udgivet af DeepSeek-teamet, som primært bruges til billedforståelse og billedgenerering.
Kernefunktioner
- Multimodal forståelse og generering: Janus Pro kan behandle både tekst og billeder på samme tid, både forstå indholdet af billedet og generere billeder baseret på tekstbeskrivelsen.
- Open source og storskala-model: Den fås i to parameterstørrelser, 1B og 7B, og er open source og kommercielt tilgængelig.
Udvikling af Janus Pro DeepSeek
Etablering og udvikling
- Juli 2023: DeepSeek er officielt etableret med hovedkvarter i Hangzhou og fokuserer på forskning og udvikling inden for generel kunstig intelligens (AGI).
- 2. november 2023: Udgivelse af den første store model med open source-kode DeepSeek Coder, som understøtter kodegenerering, fejlfinding og dataanalyseopgaver i flere programmeringssprog.
- 29. november 2023: DeepSeek LLM, en stor model til generelle formål med en parameterskala på 67 milliarder, lanceres, inklusive basis- og chatversioner af 7B og 67B.
Tekniske gennembrud og produkt-iterationer
- 7. maj 2024: DeepSeek-V2, anden generation af open source-hybridekspertmodellen (MoE), frigives med i alt 236 milliarder parametre og en inferensomkostning, der er reduceret til kun 1 RMB pr. million tokens.
- 26. december 2024: DeepSeek-V3 frigives med i alt 671 milliarder parametre. Den anvender en innovativ MoE-arkitektur og FP8-træning med blandet præcision, og træningsomkostningerne er kun 5,576 millioner amerikanske dollars.
- 20. januar 2025: DeepSeek-R1, en ny generation af inferensmodel, er udgivet med en ydeevne på niveau med OpenAI's officielle version o1, og den er open source.

Den 27. januar blev janus pro multimodal model blev udgivet, og den blev open source umiddelbart efter udgivelsen, så flere mennesker kan deltage i udviklingsprocessen af store AI-modeller og bruge og lære den nyeste AI-teknologi med begrænsede ressourcer.
Janus Pro DeepSeeks kerneteknologi

Afkobling af visuel kodning
Janus Pro bruger afkoblingsteknologi til visuel kodning til at opdele den visuelle kodningssti i uafhængige behandlingsstier, som bruges til henholdsvis multimodal forståelse og genereringsopgaver. Dette design løser effektivt problemet med funktionel konflikt mellem den visuelle koder i forståelses- og genereringsopgaverne i traditionelle multimodale modeller og forbedrer modellens fleksibilitet og opgavetilpasningsevne.
Unified Transformer-arkitektur
På trods af afkoblingen af den visuelle kodningsvej bruger Janus Pro stadig en enkelt Transformer-arkitektur til at håndtere multimodale opgaver. Denne samlede arkitektur forenkler modeldesignet og forbedrer samtidig modellernes skalerbarhed og deres evne til at arbejde sammen på tværs af opgaver.
Optimeret træningsstrategi
Janus Pro har foretaget en række optimeringer af træningsstrategien, herunder
- Forlængelse af træningstiden for ImageNet-datasættet for at forbedre modellens evne til at forstå billeder.
- Ved at fokusere på træning af tekst-til-billed-data optimeres modellens generative evne.
- Ved at justere andelen af træningsdata sikrer man, at modellen fungerer mere stabilt og effektivt i multimodale opgaver.
Udvidet træningsdata
Janus Pro bruger store og forskelligartede træningsdata, herunder multimodale forståelsesdata og visuelle genereringsdata. Udvidelsen af disse data forbedrer ikke kun modellens forståelsesevne, men forbedrer også dens generative kvalitet.
Innovativ visuel indkoder
Til multimodale forståelsesopgaver bruger Janus Pro SigLIP-L som visuel koder, der understøtter billedinput med en opløsning på op til 384×384. Denne understøttelse af høj opløsning gør det muligt for modellen at opfange flere billeddetaljer og dermed forbedre nøjagtigheden af den visuelle forståelse.
Højtydende generativt modul
Til billedgenereringsopgaver bruger Janus Pro LlamaGen Tokenizer med en downsampling-hastighed på 16 for at generere mere detaljerede billeder. Dette design gør de genererede billeder mere realistiske og detaljerede.
Innovationer inden for infrastruktur
Janus Pro er bygget på DeepSeek-LLM-1.5b- og DeepSeek-LLM-7b-modeller, som giver modellen kraftige multimodale behandlingsfunktioner, hvilket gør den fremragende til multimodal forståelse og genereringsopgaver.
Multimodal forståelse og genereringskapacitet
Janus Pro er ikke kun i stand til at håndtere multimodale forståelsesopgaver (som f.eks. visuel besvarelse af spørgsmål og billedtekster), men også til at generere billeder i høj kvalitet ud fra tekstbeskrivelser. Denne evne gør den fremragende i multimodale scenarier.

Janus Pro DeepSeek-ydelse
Janus-Pro-modellen af DeepSeek udmærker sig i multimodale forståelses- og genereringsopgaver. Det følgende er en detaljeret analyse af dens præstationer:
Præstationer for multimodal forståelse
- MMBench-benchmark: Janus-Pro-7B opnåede en score på 79,2 i MMBench-benchmarket for multimodal forståelse og overgik dermed eksisterende state-of-the-art unified multimodal models, herunder Janus (69,4), TokenFlow (68,9) og MetaMorph (75,2).
- Visuel besvarelse af spørgsmål: Janus-Pro's nøjagtighed ved besvarelse af visuelle spørgsmål overgår GPT-4V, idet den præcist identificerer detaljer i billeder og besvarer relaterede spørgsmål.
Sporing af tekst-til-billede-kommandoer
- GenEval-benchmarktest: Janus-Pro-7B opnåede en samlet nøjagtighed på 80% i GenEval-testen, hvilket var betydeligt bedre end andre modeller som DALL-E 3 (67%) og Stable Diffusion 3 Medium (74%).
Forståelse af komplekse kommandoer: I DPG-Bench-testen scorede Janus-Pro-7B fremragende 84,19 point og var i stand til præcist at generere komplekse scener som "et snedækket bjerg med en blå sø på toppen".
Ydeevne for tekst-til-billede-generering
- Billedkvalitet og stabilitet: På trods af en outputopløsning på 384×384 udviser de billeder, der genereres af Janus-Pro-7B, en høj grad af realisme og detaljerigdom, især ved behandling af fantasifulde og kreative scener. Den kan nøjagtigt forstå den semantiske information i spørgeordene og generere logisk fornuftige og sammenhængende billeder.
- Generationshastighed: Janus-Pro understøtter 4K-billedgenerering på et enkelt kort, hvilket er 2 gange hurtigere end Stable Diffusion 3.
Modelarkitektur og træning
- Afkobling af visuel kodning: Janus-Pro bruger en uafhængig kodningsmetode til at konvertere det oprindelige input til funktioner, som derefter behandles af en samlet autoregressiv transformer for at opnå afkobling af visuel kodning i multimodale forståelses- og genereringsopgaver.
- Træningsdata: Janus-Pro inkorporerer 72 millioner syntetiske billeder af høj kvalitet i træningen for at sikre et forhold på 1:1 mellem ægte og syntetiske data. Den tilføjer også ca. 90 millioner prøver af træningsdata til multimodal forståelse, hvilket forbedrer modellens ydeevne betydeligt.
Skalerbarhed og udrulning
Modelstørrelse: Janus-Pro-serien indeholder modeller med 1B- og 7B-parameterstørrelser, som tager højde for både ydeevne og computeromkostninger og er velegnede til flere brugsscenarier.
Minimal udrulning: Janus-Pro er udgivet under MIT-licensen, understøtter kommerciel brug og findes i to versioner: 1.5B (kræver 16 GB VRAM) og 7B (kræver 24 GB VRAM), som kan køre på standard-GPU'er.
Scenarier for praktisk anvendelse af Janus Pro DeepSeek
Multimodale AI-modeller, især tekst-til-billede-modeller, har et stort potentiale for udvikling i den kommercielle sektor. Efter en lang udviklingsperiode har AI-tekst-til-billede-modeller allerede gjort store fremskridt
I det mest almindelige scenarie med reklame- eller plakatdesign kan designere eller brugere bruge Janus pro til at indtaste en tekstbeskrivelse for hurtigt at generere plakater af høj kvalitet. Ved at iterere gennem plakatprototyper kan de spare designtid og forbedre den kreative effektivitet. Dette kan i høj grad forbedre effektiviteten hos designere, som kan bruge tid på mere meningsfulde ting.
Ud over traditionelt plakatdesign eller reklamedesign kan den store ai-model i de mere populære spilindstillinger i dag også hjælpe designere med at generere spilscener, figurer og genstande i realtid, hvilket reducerer omkostningerne og vanskelighederne ved udvikling, samtidig med at spillets visuelle effekter forbedres. Vi tror på, at den store ai-model kan fortsætte med at frigøre skabernes potentiale og fantasi og realisere mere interessante produkter.
Ud over designområdet vil den multimodale model også have en stor udvikling inden for andre områder af læring, uddannelse og det professionelle vertikale område af medicin.
I fremtiden vil vi måske se fremkomsten af flere meget interessante applikationer, der i høj grad kan forbedre effektiviteten og kvaliteten af vores liv.
I mellemtiden reducerer Janus-Pro's open source-funktioner (MIT-licens) og minimale implementeringsmetoder (understøtter kørsel på standard-GPU'er) yderligere adgangsbarrieren, hvilket gør den bredt anvendelig inden for ovenstående områder.
Det giver flere brugere mulighed for at deltage i udviklingen, så flere mennesker kan forbedre disse funktioner og øge hele samfundets muligheder.
Hvordan vælger jeg den rigtige version af Janus Pro DeepSeek til mig?
Janus-Pro er open source i to versioner: Janus-Pro-1B og Janus-Pro-7B. Hvilken version du vælger, afhænger af dine specifikke behov, computerressourcer og anvendelsesscenarier. Her følger en detaljeret sammenligning og anbefalinger:
Gældende scenarier
Janus-Pro-1B:
- Letvægtsapplikationer: egnet til brug på mobile enheder, i browsere eller i ressourcebegrænsede miljøer. Det giver flere brugere mulighed for at opleve den nyeste Janus pro.
- Hurtig prototyping: velegnet til hurtig udvikling og afprøvning af multimodale funktioner uden at kræve mange computerressourcer. Det er meget vigtigt for AI-entusiaster, som hurtigt kan gentage og opdage problemer i forskningen uden at skulle bruge mange computerressourcer.
Janus-Pro-7B:
- Billedgenerering i høj kvalitet: velegnet til applikationer, der kræver generering af billeder i høj kvalitet af komplekse scener, f.eks. reklamedesign, spiludvikling og kunstnerisk skabelse. Denne model er mere velegnet til mere professionelle designscenarier, som kræver kraftigere hardwarefunktioner og kraftigere computerfunktioner.
- Kompleks instruktionsforståelse: velegnet til scenarier, der skal behandle komplekse tekstinstruktioner og generere nøjagtige billeder, såsom virtual reality (VR) og augmented reality (AR).
Krav til udrulning
Janus-Pro-1B:
- Hardwarekrav: egnet til at køre på ressourcebegrænsede enheder, f.eks. GPU'er, der kræver 16 GB VRAM. Hvis du kun har et ældre grafikkort, er dette måske mere passende for dig
- Applikationsscenarie: egnet til at køre i browseren eller implementere på letvægtsenheder.
Janus-Pro-7B:
- Hardwarekrav: Kræver større computerressourcer, f.eks. en GPU med 24 GB VRAM. Dette vil være mere velegnet til brugere med nyere grafikkort
- Anvendelsesscenarie: egnet til at køre på standard-GPU'er og til scenarier, der kræver høj ydeevne.
Sammenfatning
Hvis dit applikationsscenarie kræver høj billedkvalitet og kompleks instruktionsforståelse, og du har tilstrækkelige computerressourcer, anbefaler vi Janus-Pro-7B.
Hvis du har brug for let udrulning eller har begrænsede computerressourcer, anbefaler vi Janus-Pro-1B.
Støtte og ressourcer fra samfundet
DeepSeek giver udviklere et væld af ressourcer og support:
- Den officielle dokumentation indeholder detaljerede beskrivelser af API-grænseflader og tekniske vejledninger, herunder finjustering af modeller, implementeringsvejledninger og andet indhold.
- Udviklerfællesskabet stiller fora og diskussionsgrupper til rådighed for at lette udvekslingen af erfaringer blandt udviklere. Der afholdes regelmæssigt tekniske delingssessioner og hackathons.
- Teknisk support giver professionel teknisk support til at løse problemer, som brugerne støder på under brug.