{"id":847,"date":"2025-02-04T16:27:27","date_gmt":"2025-02-04T16:27:27","guid":{"rendered":"https:\/\/janusai.pro\/?p=847"},"modified":"2025-02-04T16:27:28","modified_gmt":"2025-02-04T16:27:28","slug":"how-good-is-deepseeks-janus-pro","status":"publish","type":"post","link":"https:\/\/janusai.pro\/sv\/how-good-is-deepseeks-janus-pro\/","title":{"rendered":"Hur bra \u00e4r DeepSeeks Janus-Pro?"},"content":{"rendered":"<div style=\"margin-top: 0px; margin-bottom: 0px;\" class=\"sharethis-inline-share-buttons\" ><\/div>\n<p>Inf\u00f6r v\u00e5rfestivalen sl\u00e4pptes modellen DeepSeek-R1. Med sin rena RL-arkitektur har den l\u00e4rt sig av CoT:s stora innovationer och \u00f6vertr\u00e4ffar <a href=\"https:\/\/openai.com\/\" target=\"_blank\" rel=\"noreferrer noopener nofollow\">ChattGPT<\/a> i matematik, kod och logiska resonemang.<\/p>\n\n\n\n<p>Dessutom har DeepSeeks modellvikter med \u00f6ppen k\u00e4llkod, l\u00e5ga utbildningskostnader och billiga API-priser gjort DeepSeek till en succ\u00e9 p\u00e5 internet, vilket till och med fick aktiekurserna f\u00f6r NVIDIA och ASML att sjunka under en tid.<\/p>\n\n\n\n<p>Medan DeepSeek exploderade i popularitet sl\u00e4ppte DeepSeek ocks\u00e5 en uppdaterad version av den multimodala stora modellen Janus (Janus), Janus-Pro, som \u00e4rver den enhetliga arkitekturen fr\u00e5n den tidigare generationen av multimodal f\u00f6rst\u00e5else och generation, och optimerar tr\u00e4ningsstrategin, skalar tr\u00e4ningsdata och modellstorlek, vilket ger starkare prestanda.<\/p>\n\n\n\n<figure class=\"wp-block-image\"><img loading=\"lazy\" decoding=\"async\" width=\"1080\" height=\"427\" src=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/56e80359-198e-4faf-981a-54b7dfe49f02.png\" alt=\"\" class=\"wp-image-850\" srcset=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/56e80359-198e-4faf-981a-54b7dfe49f02.png 1080w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/56e80359-198e-4faf-981a-54b7dfe49f02-300x119.png 300w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/56e80359-198e-4faf-981a-54b7dfe49f02-1024x405.png 1024w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/56e80359-198e-4faf-981a-54b7dfe49f02-768x304.png 768w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/56e80359-198e-4faf-981a-54b7dfe49f02-18x7.png 18w\" sizes=\"auto, (max-width: 1080px) 100vw, 1080px\" \/><\/figure>\n\n\n\n<figure class=\"wp-block-image\"><img loading=\"lazy\" decoding=\"async\" width=\"1080\" height=\"522\" src=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/af7da2cf-a17d-4ac3-95ba-42252fe1a481.png\" alt=\"\" class=\"wp-image-854\" srcset=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/af7da2cf-a17d-4ac3-95ba-42252fe1a481.png 1080w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/af7da2cf-a17d-4ac3-95ba-42252fe1a481-300x145.png 300w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/af7da2cf-a17d-4ac3-95ba-42252fe1a481-1024x495.png 1024w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/af7da2cf-a17d-4ac3-95ba-42252fe1a481-768x371.png 768w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/af7da2cf-a17d-4ac3-95ba-42252fe1a481-18x9.png 18w\" sizes=\"auto, (max-width: 1080px) 100vw, 1080px\" \/><\/figure>\n\n\n\n<div id=\"ez-toc-container\" class=\"ez-toc-v2_0_82_2 counter-hierarchy ez-toc-counter ez-toc-grey ez-toc-container-direction\">\n<div class=\"ez-toc-title-container\">\n<p class=\"ez-toc-title\" style=\"cursor:inherit\">Inneh\u00e5llsf\u00f6rteckning<\/p>\n<span class=\"ez-toc-title-toggle\"><a href=\"#\" class=\"ez-toc-pull-right ez-toc-btn ez-toc-btn-xs ez-toc-btn-default ez-toc-toggle\" aria-label=\"V\u00e4xla inneh\u00e5llsf\u00f6rteckning\"><span class=\"ez-toc-js-icon-con\"><span class=\"\"><span class=\"eztoc-hide\" style=\"display:none;\">Toggle<\/span><span class=\"ez-toc-icon-toggle-span\"><svg style=\"fill: #999;color:#999\" xmlns=\"http:\/\/www.w3.org\/2000\/svg\" class=\"list-377408\" width=\"20px\" height=\"20px\" viewbox=\"0 0 24 24\" fill=\"none\"><path d=\"M6 6H4v2h2V6zm14 0H8v2h12V6zM4 11h2v2H4v-2zm16 0H8v2h12v-2zM4 16h2v2H4v-2zm16 0H8v2h12v-2z\" fill=\"currentColor\"><\/path><\/svg><svg style=\"fill: #999;color:#999\" class=\"arrow-unsorted-368013\" xmlns=\"http:\/\/www.w3.org\/2000\/svg\" width=\"10px\" height=\"10px\" viewbox=\"0 0 24 24\" version=\"1.2\" baseprofile=\"tiny\"><path d=\"M18.2 9.3l-6.2-6.3-6.2 6.3c-.2.2-.3.4-.3.7s.1.5.3.7c.2.2.4.3.7.3h11c.3 0 .5-.1.7-.3.2-.2.3-.5.3-.7s-.1-.5-.3-.7zM5.8 14.7l6.2 6.3 6.2-6.3c.2-.2.3-.5.3-.7s-.1-.5-.3-.7c-.2-.2-.4-.3-.7-.3h-11c-.3 0-.5.1-.7.3-.2.2-.3.5-.3.7s.1.5.3.7z\"\/><\/svg><\/span><\/span><\/span><\/a><\/span><\/div>\n<nav><ul class='ez-toc-list ez-toc-list-level-1' ><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-1\" href=\"https:\/\/janusai.pro\/sv\/how-good-is-deepseeks-janus-pro\/#Janus-Pro\" >Janus-Pro<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-2\" href=\"https:\/\/janusai.pro\/sv\/how-good-is-deepseeks-janus-pro\/#Model_architecture\" >Modellarkitektur<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-3\" href=\"https:\/\/janusai.pro\/sv\/how-good-is-deepseeks-janus-pro\/#Training_strategy\" >Strategi f\u00f6r utbildning<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-4\" href=\"https:\/\/janusai.pro\/sv\/how-good-is-deepseeks-janus-pro\/#Training_data_scaling\" >Skalning av tr\u00e4ningsdata<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-5\" href=\"https:\/\/janusai.pro\/sv\/how-good-is-deepseeks-janus-pro\/#Model_scaling\" >Skalning av modell<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-6\" href=\"https:\/\/janusai.pro\/sv\/how-good-is-deepseeks-janus-pro\/#Model_evaluation\" >Utv\u00e4rdering av modell<\/a><\/li><\/ul><\/nav><\/div>\n<h2 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Janus-Pro\"><\/span>Janus-Pro<span class=\"ez-toc-section-end\"><\/span><\/h2>\n\n\n\n<p><a href=\"https:\/\/huggingface.co\/deepseek-ai\/Janus-Pro-7B\" target=\"_blank\" rel=\"noreferrer noopener nofollow\">Janus-Pro<\/a> \u00e4r en enhetlig multimodal spr\u00e5kmodell (MLLM) som samtidigt kan bearbeta multimodala f\u00f6rst\u00e5elseuppgifter och genereringsuppgifter, dvs. den kan f\u00f6rst\u00e5 inneh\u00e5llet i en bild och \u00e4ven generera text.<\/p>\n\n\n\n<p>Den frikopplar de visuella kodarna f\u00f6r multimodal f\u00f6rst\u00e5else och generering (dvs. olika tokenizers anv\u00e4nds f\u00f6r inmatningen av bildf\u00f6rst\u00e5else och inmatningen och utmatningen av bildgenerering) och bearbetar dem med hj\u00e4lp av en enhetlig autoregressiv transformator.<\/p>\n\n\n\n<p>Som en avancerad multimodal f\u00f6rst\u00e5else- och genereringsmodell \u00e4r den en uppgraderad version av den tidigare Janus-modellen.<\/p>\n\n\n\n<p>I den romerska mytologin \u00e4r Janus (Janus) en tv\u00e5ansiktad skyddsgud som symboliserar mots\u00e4gelse och \u00f6verg\u00e5ng. Han har tv\u00e5 ansikten, vilket ocks\u00e5 tyder p\u00e5 att Janus-modellen kan f\u00f6rst\u00e5 och generera bilder, vilket \u00e4r mycket l\u00e4mpligt. S\u00e5 vad exakt har PRO uppgraderat?<\/p>\n\n\n\n<p>Janus, som en liten modell p\u00e5 1,3B, \u00e4r mer som en f\u00f6rhandsversion \u00e4n en officiell version. Den utforskar enhetlig multimodal f\u00f6rst\u00e5else och generering, men har m\u00e5nga problem, till exempel instabila bildgenereringseffekter, stora avvikelser fr\u00e5n anv\u00e4ndarinstruktioner och otillr\u00e4ckliga detaljer.<\/p>\n\n\n\n<p>Pro-versionen optimerar tr\u00e4ningsstrategin, \u00f6kar m\u00e4ngden tr\u00e4ningsdata och ger en st\u00f6rre modell (7B) att v\u00e4lja mellan samtidigt som den ger en 1B-modell.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Model_architecture\"><\/span>Modellarkitektur<span class=\"ez-toc-section-end\"><\/span><\/h2>\n\n\n\n<p><a href=\"https:\/\/huggingface.co\/deepseek-ai\/Janus-Pro-7B\" target=\"_blank\" rel=\"noreferrer noopener nofollow\">Jaus-Pro och Janus<\/a> \u00e4r identiska n\u00e4r det g\u00e4ller modellarkitektur. (Endast 1,3B! Janus f\u00f6renar multimodal f\u00f6rst\u00e5else och generering)<\/p>\n\n\n\n<figure class=\"wp-block-image\"><img loading=\"lazy\" decoding=\"async\" width=\"1080\" height=\"571\" src=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/60356ab0-3c6e-4017-9eba-7ee44e0a1006.png\" alt=\"\" class=\"wp-image-851\" srcset=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/60356ab0-3c6e-4017-9eba-7ee44e0a1006.png 1080w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/60356ab0-3c6e-4017-9eba-7ee44e0a1006-300x159.png 300w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/60356ab0-3c6e-4017-9eba-7ee44e0a1006-1024x541.png 1024w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/60356ab0-3c6e-4017-9eba-7ee44e0a1006-768x406.png 768w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/60356ab0-3c6e-4017-9eba-7ee44e0a1006-18x10.png 18w\" sizes=\"auto, (max-width: 1080px) 100vw, 1080px\" \/><\/figure>\n\n\n\n<p>Den grundl\u00e4ggande designprincipen \u00e4r att frikoppla visuell kodning f\u00f6r att st\u00f6dja multimodal f\u00f6rst\u00e5else och generering. Janus-Pro kodar originalbilden\/textinmatningen separat, extraherar h\u00f6gdimensionella funktioner och bearbetar dem genom en enhetlig autoregressiv transformator.<\/p>\n\n\n\n<p>Multimodal bildf\u00f6rst\u00e5else anv\u00e4nder SigLIP f\u00f6r att koda bildfunktioner (bl\u00e5 kodare i figuren ovan), och genereringsuppgiften anv\u00e4nder VQ-tokenizer f\u00f6r att diskretisera bilden (gul kodare i figuren ovan). Slutligen matas alla funktionssekvenser in till LLM f\u00f6r bearbetning<\/p>\n\n\n\n<h2 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Training_strategy\"><\/span>Strategi f\u00f6r utbildning<span class=\"ez-toc-section-end\"><\/span><\/h2>\n\n\n\n<p>N\u00e4r det g\u00e4ller tr\u00e4ningsstrategi har Janus-Pro gjort fler f\u00f6rb\u00e4ttringar. I den gamla versionen av Janus anv\u00e4ndes en tr\u00e4ningsstrategi i tre steg, d\u00e4r steg I tr\u00e4nar inmatningsadaptern och bildgenereringshuvudet f\u00f6r bildf\u00f6rst\u00e5else och bildgenerering, steg II utf\u00f6r enhetlig f\u00f6rtr\u00e4ning och steg III finjusterar f\u00f6rst\u00e5elsekodaren p\u00e5 grundval av detta. (Janus tr\u00e4ningsstrategi visas i figuren nedan).<\/p>\n\n\n\n<figure class=\"wp-block-image\"><img loading=\"lazy\" decoding=\"async\" width=\"1080\" height=\"381\" src=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/dbf6954f-1a18-4572-a452-ec995c8af71a.png\" alt=\"\" class=\"wp-image-849\" srcset=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/dbf6954f-1a18-4572-a452-ec995c8af71a.png 1080w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/dbf6954f-1a18-4572-a452-ec995c8af71a-300x106.png 300w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/dbf6954f-1a18-4572-a452-ec995c8af71a-1024x361.png 1024w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/dbf6954f-1a18-4572-a452-ec995c8af71a-768x271.png 768w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/dbf6954f-1a18-4572-a452-ec995c8af71a-18x6.png 18w\" sizes=\"auto, (max-width: 1080px) 100vw, 1080px\" \/><\/figure>\n\n\n\n<p>I den h\u00e4r strategin anv\u00e4nds dock PixArt-metoden f\u00f6r att dela upp tr\u00e4ningen av text-till-bild-generering i steg II, vilket resulterar i l\u00e5g ber\u00e4kningseffektivitet.<\/p>\n\n\n\n<p>F\u00f6r detta \u00e4ndam\u00e5l f\u00f6rl\u00e4ngde vi tr\u00e4ningstiden i steg I och lade till tr\u00e4ning med ImageNet-data, s\u00e5 att modellen effektivt kan modellera pixelberoenden med fasta LLM-parametrar. I steg II tog vi bort ImageNet-data och anv\u00e4nde direkt text-bildpardata f\u00f6r att tr\u00e4na, vilket f\u00f6rb\u00e4ttrar tr\u00e4ningseffektiviteten. Dessutom justerade vi dataf\u00f6rh\u00e5llandet i steg III (multimodal: endast text: visuell-semantisk grafdata fr\u00e5n 7:3:10 till 5:1:4), vilket f\u00f6rb\u00e4ttrade multimodal f\u00f6rst\u00e5else samtidigt som vi beh\u00f6ll visuell genereringsf\u00f6rm\u00e5ga.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Training_data_scaling\"><\/span>Skalning av tr\u00e4ningsdata<span class=\"ez-toc-section-end\"><\/span><\/h2>\n\n\n\n<p>Janus-Pro skalar ocks\u00e5 upp Janus tr\u00e4ningsdata n\u00e4r det g\u00e4ller multimodal f\u00f6rst\u00e5else och visuell generering.<\/p>\n\n\n\n<p>Multimodal f\u00f6rst\u00e5else: F\u00f6rtr\u00e4ningsdata f\u00f6r steg II baseras p\u00e5 DeepSeek-VL2 och inneh\u00e5ller cirka 90 miljoner nya prover, inklusive bildtextdata (t.ex. YFCC) och data f\u00f6r tabell-, diagram- och dokumentf\u00f6rst\u00e5else (t.ex. Docmatix).<\/p>\n\n\n\n<p>I den \u00f6vervakade finjusteringsfasen i steg III inf\u00f6rs ytterligare MEME-f\u00f6rst\u00e5else, kinesiska dialogdata etc. f\u00f6r att f\u00f6rb\u00e4ttra modellens prestanda n\u00e4r det g\u00e4ller bearbetning av flera uppgifter och dialogfunktioner.<\/p>\n\n\n\n<p>Visuell generering: I tidigare versioner anv\u00e4ndes verkliga data med l\u00e5g kvalitet och h\u00f6gt brus, vilket p\u00e5verkade stabiliteten och estetiken hos de textgenererade bilderna.<\/p>\n\n\n\n<p>Janus-Pro introducerar cirka 72 miljoner syntetiska estetiska data, vilket inneb\u00e4r att f\u00f6rh\u00e5llandet mellan verkliga data och syntetiska data \u00e4r 1:1. Experiment har visat att syntetiska data p\u00e5skyndar modellkonvergensen och avsev\u00e4rt f\u00f6rb\u00e4ttrar stabiliteten och den estetiska kvaliteten hos de genererade bilderna.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Model_scaling\"><\/span>Skalning av modell<span class=\"ez-toc-section-end\"><\/span><\/h2>\n\n\n\n<p>Janus Pro ut\u00f6kar modellstorleken till 7B, medan den tidigare versionen av Janus anv\u00e4nde 1,5B DeepSeek-LLM f\u00f6r att verifiera effektiviteten i att frikoppla visuell kodning. Experiment visar att en st\u00f6rre LLM avsev\u00e4rt p\u00e5skyndar konvergensen av multimodal f\u00f6rst\u00e5else och visuell generering, vilket ytterligare verifierar metodens starka skalbarhet.<\/p>\n\n\n\n<figure class=\"wp-block-image\"><img loading=\"lazy\" decoding=\"async\" width=\"864\" height=\"352\" src=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/a19590e2-1805-493d-85e3-09c9b8e2274b.png\" alt=\"\" class=\"wp-image-848\" srcset=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/a19590e2-1805-493d-85e3-09c9b8e2274b.png 864w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/a19590e2-1805-493d-85e3-09c9b8e2274b-300x122.png 300w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/a19590e2-1805-493d-85e3-09c9b8e2274b-768x313.png 768w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/a19590e2-1805-493d-85e3-09c9b8e2274b-18x7.png 18w\" sizes=\"auto, (max-width: 864px) 100vw, 864px\" \/><\/figure>\n\n\n\n<figure class=\"wp-block-image\"><img loading=\"lazy\" decoding=\"async\" width=\"1080\" height=\"536\" src=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/c78ed17c-6e07-43ef-bfda-ae287f597bba.png\" alt=\"\" class=\"wp-image-852\" srcset=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/c78ed17c-6e07-43ef-bfda-ae287f597bba.png 1080w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/c78ed17c-6e07-43ef-bfda-ae287f597bba-300x149.png 300w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/c78ed17c-6e07-43ef-bfda-ae287f597bba-1024x508.png 1024w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/c78ed17c-6e07-43ef-bfda-ae287f597bba-768x381.png 768w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/c78ed17c-6e07-43ef-bfda-ae287f597bba-18x9.png 18w\" sizes=\"auto, (max-width: 1080px) 100vw, 1080px\" \/><\/figure>\n\n\n\n<p>I experimentet anv\u00e4nds DeepSeek-LLM (1,5B och 7B, med st\u00f6d f\u00f6r en maximal sekvens p\u00e5 4096) som grundl\u00e4ggande spr\u00e5kmodell. F\u00f6r den multimodala f\u00f6rst\u00e5elseuppgiften anv\u00e4nds SigLIP-Large-Patch16-384 som visuell kodare, kodarens ordboksstorlek \u00e4r 16384, bildnedsamplingsmultipeln \u00e4r 16 och b\u00e5de f\u00f6rst\u00e5else- och genereringsadaptrarna \u00e4r MLP:er i tv\u00e5 lager.<\/p>\n\n\n\n<p>Steg II-utbildning anv\u00e4nder en 270K tidig stoppstrategi, alla bilder justeras enhetligt till en uppl\u00f6sning p\u00e5 384 \u00d7 384 och sekvensf\u00f6rpackning anv\u00e4nds f\u00f6r att f\u00f6rb\u00e4ttra utbildningseffektiviteten. Janus-Pro tr\u00e4nas och utv\u00e4rderas med hj\u00e4lp av HAI-LLM. Versionerna 1.5B\/7B tr\u00e4nades p\u00e5 16\/32 noder (8\u00d7Nvidia A100 40GB per nod) under 9\/14 dagar.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Model_evaluation\"><\/span>Utv\u00e4rdering av modell<span class=\"ez-toc-section-end\"><\/span><\/h2>\n\n\n\n<p>Janus-Pro utv\u00e4rderades separat f\u00f6r multimodal f\u00f6rst\u00e5else och generering. Sammantaget kan f\u00f6rst\u00e5elsen vara n\u00e5got svag, men den anses vara utm\u00e4rkt bland modeller med \u00f6ppen k\u00e4llkod av samma storlek (antar att den till stor del begr\u00e4nsas av den fasta inmatningsuppl\u00f6sningen och OCR-funktionerna).<\/p>\n\n\n\n<p>Janus-Pro-7B fick 79,2 po\u00e4ng i MMBench benchmark-test, vilket \u00e4r n\u00e4ra niv\u00e5n f\u00f6r f\u00f6rstklassiga modeller med \u00f6ppen k\u00e4llkod (samma storlek p\u00e5 InternVL2.5 och Qwen2-VL \u00e4r cirka 82 po\u00e4ng). Det \u00e4r dock en bra f\u00f6rb\u00e4ttring j\u00e4mf\u00f6rt med den tidigare generationen av Janus.<\/p>\n\n\n\n<p>N\u00e4r det g\u00e4ller bildgenerering \u00e4r f\u00f6rb\u00e4ttringen j\u00e4mf\u00f6rt med f\u00f6reg\u00e5ende generation \u00e4nnu mer betydande, och det anses vara en utm\u00e4rkt niv\u00e5 bland modeller med \u00f6ppen k\u00e4llkod. Janus-Pro:s resultat i benchmark-testet GenEval (0,80) \u00f6vertr\u00e4ffar ocks\u00e5 modeller som DALL-E 3 (0,67) och Stable Diffusion 3 Medium (0,74).<\/p>\n\n\n\n<figure class=\"wp-block-image\"><img loading=\"lazy\" decoding=\"async\" width=\"1080\" height=\"827\" src=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/47aa92e1-b474-4874-956e-db210da9d349.png\" alt=\"\" class=\"wp-image-853\" srcset=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/47aa92e1-b474-4874-956e-db210da9d349.png 1080w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/47aa92e1-b474-4874-956e-db210da9d349-300x230.png 300w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/47aa92e1-b474-4874-956e-db210da9d349-1024x784.png 1024w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/47aa92e1-b474-4874-956e-db210da9d349-768x588.png 768w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/47aa92e1-b474-4874-956e-db210da9d349-16x12.png 16w\" sizes=\"auto, (max-width: 1080px) 100vw, 1080px\" \/><\/figure>\n\n\n\n<figure class=\"wp-block-image\"><img loading=\"lazy\" decoding=\"async\" width=\"1080\" height=\"744\" src=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/38de369b-7f1f-4159-83a7-5f411e816d55.png\" alt=\"\" class=\"wp-image-855\" srcset=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/38de369b-7f1f-4159-83a7-5f411e816d55.png 1080w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/38de369b-7f1f-4159-83a7-5f411e816d55-300x207.png 300w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/38de369b-7f1f-4159-83a7-5f411e816d55-1024x705.png 1024w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/38de369b-7f1f-4159-83a7-5f411e816d55-768x529.png 768w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/38de369b-7f1f-4159-83a7-5f411e816d55-18x12.png 18w\" sizes=\"auto, (max-width: 1080px) 100vw, 1080px\" \/><\/figure>","protected":false},"excerpt":{"rendered":"<p>Inf\u00f6r v\u00e5rfestivalen sl\u00e4pptes modellen DeepSeek-R1. Med sin rena RL-arkitektur har den l\u00e4rt sig av CoT:s stora innovationer och \u00f6vertr\u00e4ffar ChatGPT i matematik, kod och logiskt resonemang. Dessutom har dess modellvikter med \u00f6ppen k\u00e4llkod, l\u00e5ga utbildningskostnader och billiga API-priser gjort DeepSeek till en hit \u00f6ver hela internet, till och med ...<\/p>","protected":false},"author":2,"featured_media":704,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_kadence_starter_templates_imported_post":false,"_kad_post_transparent":"","_kad_post_title":"","_kad_post_layout":"","_kad_post_sidebar_id":"","_kad_post_content_style":"","_kad_post_vertical_padding":"","_kad_post_feature":"","_kad_post_feature_position":"","_kad_post_header":false,"_kad_post_footer":false,"footnotes":""},"categories":[1],"tags":[],"class_list":["post-847","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-uncategorized"],"_links":{"self":[{"href":"https:\/\/janusai.pro\/sv\/wp-json\/wp\/v2\/posts\/847","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/janusai.pro\/sv\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/janusai.pro\/sv\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/janusai.pro\/sv\/wp-json\/wp\/v2\/users\/2"}],"replies":[{"embeddable":true,"href":"https:\/\/janusai.pro\/sv\/wp-json\/wp\/v2\/comments?post=847"}],"version-history":[{"count":1,"href":"https:\/\/janusai.pro\/sv\/wp-json\/wp\/v2\/posts\/847\/revisions"}],"predecessor-version":[{"id":856,"href":"https:\/\/janusai.pro\/sv\/wp-json\/wp\/v2\/posts\/847\/revisions\/856"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/janusai.pro\/sv\/wp-json\/wp\/v2\/media\/704"}],"wp:attachment":[{"href":"https:\/\/janusai.pro\/sv\/wp-json\/wp\/v2\/media?parent=847"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/janusai.pro\/sv\/wp-json\/wp\/v2\/categories?post=847"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/janusai.pro\/sv\/wp-json\/wp\/v2\/tags?post=847"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}