{"id":847,"date":"2025-02-04T16:27:27","date_gmt":"2025-02-04T16:27:27","guid":{"rendered":"https:\/\/janusai.pro\/?p=847"},"modified":"2025-02-04T16:27:28","modified_gmt":"2025-02-04T16:27:28","slug":"how-good-is-deepseeks-janus-pro","status":"publish","type":"post","link":"https:\/\/janusai.pro\/fi\/how-good-is-deepseeks-janus-pro\/","title":{"rendered":"Kuinka hyv\u00e4 on DeepSeekin Janus-Pro?"},"content":{"rendered":"<div style=\"margin-top: 0px; margin-bottom: 0px;\" class=\"sharethis-inline-share-buttons\" ><\/div>\n<p>DeepSeek-R1-malli julkaistiin kev\u00e4tjuhlan aattona. Puhtaan RL-arkkitehtuurin ansiosta se on ottanut oppia CoT:n suurista innovaatioista, ja se on suorituskykyisempi kuin <a href=\"https:\/\/openai.com\/\" target=\"_blank\" rel=\"noreferrer noopener nofollow\">ChatGPT<\/a> matematiikassa, koodauksessa ja loogisessa p\u00e4\u00e4ttelyss\u00e4.<\/p>\n\n\n\n<p>Lis\u00e4ksi sen avoimen l\u00e4hdekoodin mallipainot, alhaiset harjoittelukustannukset ja halvat API-hinnat ovat tehneet DeepSeekist\u00e4 hitin koko internetiss\u00e4, mik\u00e4 on saanut jopa NVIDIAn ja ASML:n osakekurssit romahtamaan hetkeksi.<\/p>\n\n\n\n<p>Samalla kun DeepSeek kasvatti suosiotaan r\u00e4j\u00e4hdysm\u00e4isesti, se julkaisi my\u00f6s p\u00e4ivitetyn version multimodaalisesta suuresta Janus-mallista (Janus), Janus-Pro, joka perii edellisen sukupolven multimodaalisen ymm\u00e4rt\u00e4misen ja sukupolven yhten\u00e4isen arkkitehtuurin ja optimoi koulutusstrategian, skaalaa koulutusdatan ja mallin koon, mik\u00e4 tuo vahvemman suorituskyvyn.<\/p>\n\n\n\n<figure class=\"wp-block-image\"><img loading=\"lazy\" decoding=\"async\" width=\"1080\" height=\"427\" src=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/56e80359-198e-4faf-981a-54b7dfe49f02.png\" alt=\"\" class=\"wp-image-850\" srcset=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/56e80359-198e-4faf-981a-54b7dfe49f02.png 1080w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/56e80359-198e-4faf-981a-54b7dfe49f02-300x119.png 300w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/56e80359-198e-4faf-981a-54b7dfe49f02-1024x405.png 1024w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/56e80359-198e-4faf-981a-54b7dfe49f02-768x304.png 768w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/56e80359-198e-4faf-981a-54b7dfe49f02-18x7.png 18w\" sizes=\"auto, (max-width: 1080px) 100vw, 1080px\" \/><\/figure>\n\n\n\n<figure class=\"wp-block-image\"><img loading=\"lazy\" decoding=\"async\" width=\"1080\" height=\"522\" src=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/af7da2cf-a17d-4ac3-95ba-42252fe1a481.png\" alt=\"\" class=\"wp-image-854\" srcset=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/af7da2cf-a17d-4ac3-95ba-42252fe1a481.png 1080w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/af7da2cf-a17d-4ac3-95ba-42252fe1a481-300x145.png 300w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/af7da2cf-a17d-4ac3-95ba-42252fe1a481-1024x495.png 1024w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/af7da2cf-a17d-4ac3-95ba-42252fe1a481-768x371.png 768w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/af7da2cf-a17d-4ac3-95ba-42252fe1a481-18x9.png 18w\" sizes=\"auto, (max-width: 1080px) 100vw, 1080px\" \/><\/figure>\n\n\n\n<div id=\"ez-toc-container\" class=\"ez-toc-v2_0_82_2 counter-hierarchy ez-toc-counter ez-toc-grey ez-toc-container-direction\">\n<div class=\"ez-toc-title-container\">\n<p class=\"ez-toc-title\" style=\"cursor:inherit\">Sis\u00e4llysluettelo<\/p>\n<span class=\"ez-toc-title-toggle\"><a href=\"#\" class=\"ez-toc-pull-right ez-toc-btn ez-toc-btn-xs ez-toc-btn-default ez-toc-toggle\" aria-label=\"Sis\u00e4llysluettelon vaihtaminen\"><span class=\"ez-toc-js-icon-con\"><span class=\"\"><span class=\"eztoc-hide\" style=\"display:none;\">Toggle<\/span><span class=\"ez-toc-icon-toggle-span\"><svg style=\"fill: #999;color:#999\" xmlns=\"http:\/\/www.w3.org\/2000\/svg\" class=\"list-377408\" width=\"20px\" height=\"20px\" viewbox=\"0 0 24 24\" fill=\"none\"><path d=\"M6 6H4v2h2V6zm14 0H8v2h12V6zM4 11h2v2H4v-2zm16 0H8v2h12v-2zM4 16h2v2H4v-2zm16 0H8v2h12v-2z\" fill=\"currentColor\"><\/path><\/svg><svg style=\"fill: #999;color:#999\" class=\"arrow-unsorted-368013\" xmlns=\"http:\/\/www.w3.org\/2000\/svg\" width=\"10px\" height=\"10px\" viewbox=\"0 0 24 24\" version=\"1.2\" baseprofile=\"tiny\"><path d=\"M18.2 9.3l-6.2-6.3-6.2 6.3c-.2.2-.3.4-.3.7s.1.5.3.7c.2.2.4.3.7.3h11c.3 0 .5-.1.7-.3.2-.2.3-.5.3-.7s-.1-.5-.3-.7zM5.8 14.7l6.2 6.3 6.2-6.3c.2-.2.3-.5.3-.7s-.1-.5-.3-.7c-.2-.2-.4-.3-.7-.3h-11c-.3 0-.5.1-.7.3-.2.2-.3.5-.3.7s.1.5.3.7z\"\/><\/svg><\/span><\/span><\/span><\/a><\/span><\/div>\n<nav><ul class='ez-toc-list ez-toc-list-level-1' ><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-1\" href=\"https:\/\/janusai.pro\/fi\/how-good-is-deepseeks-janus-pro\/#Janus-Pro\" >Janus-Pro<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-2\" href=\"https:\/\/janusai.pro\/fi\/how-good-is-deepseeks-janus-pro\/#Model_architecture\" >Malliarkkitehtuuri<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-3\" href=\"https:\/\/janusai.pro\/fi\/how-good-is-deepseeks-janus-pro\/#Training_strategy\" >Koulutusstrategia<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-4\" href=\"https:\/\/janusai.pro\/fi\/how-good-is-deepseeks-janus-pro\/#Training_data_scaling\" >Koulutusdatan skaalaus<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-5\" href=\"https:\/\/janusai.pro\/fi\/how-good-is-deepseeks-janus-pro\/#Model_scaling\" >Mallin skaalaus<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-6\" href=\"https:\/\/janusai.pro\/fi\/how-good-is-deepseeks-janus-pro\/#Model_evaluation\" >Mallin arviointi<\/a><\/li><\/ul><\/nav><\/div>\n<h2 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Janus-Pro\"><\/span>Janus-Pro<span class=\"ez-toc-section-end\"><\/span><\/h2>\n\n\n\n<p><a href=\"https:\/\/huggingface.co\/deepseek-ai\/Janus-Pro-7B\" target=\"_blank\" rel=\"noreferrer noopener nofollow\">Janus-Pro<\/a> on yhten\u00e4inen multimodaalinen kielimalli (MLLM), joka voi samanaikaisesti k\u00e4sitell\u00e4 multimodaalisia ymm\u00e4rt\u00e4mis- ja tuottamisteht\u00e4vi\u00e4, eli se voi ymm\u00e4rt\u00e4\u00e4 kuvan sis\u00e4ll\u00f6n ja my\u00f6s tuottaa teksti\u00e4.<\/p>\n\n\n\n<p>Se irrottaa multimodaalisen ymm\u00e4rt\u00e4misen ja tuottamisen visuaaliset kooderit toisistaan (eli kuvan ymm\u00e4rt\u00e4misen sy\u00f6tteess\u00e4 ja kuvan tuottamisen sy\u00f6tteess\u00e4 ja tuotoksessa k\u00e4ytet\u00e4\u00e4n eri tokenisaattoreita) ja k\u00e4sittelee ne k\u00e4ytt\u00e4m\u00e4ll\u00e4 yhten\u00e4ist\u00e4 autoregressiivist\u00e4 muunninta.<\/p>\n\n\n\n<p>Edistynyt multimodaalinen ymm\u00e4rt\u00e4mis- ja tuottamismalli on parannettu versio aiemmasta Janus-mallista.<\/p>\n\n\n\n<p>Roomalaisessa mytologiassa Janus (Janus) on kaksikasvoinen vartijajumala, joka symboloi ristiriitoja ja siirtymi\u00e4. H\u00e4nell\u00e4 on kaksi kasvoa, mik\u00e4 viittaa my\u00f6s siihen, ett\u00e4 Janus-malli pystyy ymm\u00e4rt\u00e4m\u00e4\u00e4n ja tuottamaan kuvia, mik\u00e4 on eritt\u00e4in tarkoituksenmukaista. Joten mit\u00e4 tarkalleen ottaen PRO on p\u00e4ivitt\u00e4nyt?<\/p>\n\n\n\n<p>Janus on 1.3B:n pienen\u00e4 mallina enemm\u00e4nkin esikatseluversio kuin virallinen versio. Siin\u00e4 tutkitaan yhten\u00e4ist\u00e4 multimodaalista ymm\u00e4rt\u00e4mist\u00e4 ja tuottamista, mutta siin\u00e4 on monia ongelmia, kuten ep\u00e4vakaat kuvantuotantotehosteet, suuret poikkeamat k\u00e4ytt\u00e4j\u00e4n ohjeista ja riitt\u00e4m\u00e4tt\u00f6m\u00e4t yksityiskohdat.<\/p>\n\n\n\n<p>Pro-versiossa optimoidaan harjoitusstrategia, kasvatetaan harjoitusdatam\u00e4\u00e4r\u00e4\u00e4 ja tarjotaan suurempi malli (7B), josta valita, ja samalla tarjotaan 1B-malli.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Model_architecture\"><\/span>Malliarkkitehtuuri<span class=\"ez-toc-section-end\"><\/span><\/h2>\n\n\n\n<p><a href=\"https:\/\/huggingface.co\/deepseek-ai\/Janus-Pro-7B\" target=\"_blank\" rel=\"noreferrer noopener nofollow\">Jaus-Pro ja Janus<\/a> ovat identtisi\u00e4 malliarkkitehtuuriltaan. (Vain 1,3B! Janus yhdist\u00e4\u00e4 multimodaalisen ymm\u00e4rt\u00e4misen ja tuottamisen).<\/p>\n\n\n\n<figure class=\"wp-block-image\"><img loading=\"lazy\" decoding=\"async\" width=\"1080\" height=\"571\" src=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/60356ab0-3c6e-4017-9eba-7ee44e0a1006.png\" alt=\"\" class=\"wp-image-851\" srcset=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/60356ab0-3c6e-4017-9eba-7ee44e0a1006.png 1080w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/60356ab0-3c6e-4017-9eba-7ee44e0a1006-300x159.png 300w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/60356ab0-3c6e-4017-9eba-7ee44e0a1006-1024x541.png 1024w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/60356ab0-3c6e-4017-9eba-7ee44e0a1006-768x406.png 768w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/60356ab0-3c6e-4017-9eba-7ee44e0a1006-18x10.png 18w\" sizes=\"auto, (max-width: 1080px) 100vw, 1080px\" \/><\/figure>\n\n\n\n<p>Keskeinen suunnitteluperiaate on visuaalisen koodauksen erottaminen toisistaan multimodaalisen ymm\u00e4rt\u00e4misen ja tuottamisen tukemiseksi. Janus-Pro koodaa alkuper\u00e4isen kuvan ja tekstin erikseen, poimii korkea-ulotteiset piirteet ja k\u00e4sittelee ne yhten\u00e4isen autoregressiivisen muuntajan avulla.<\/p>\n\n\n\n<p>Multimodaalinen kuvan ymm\u00e4rt\u00e4minen k\u00e4ytt\u00e4\u00e4 SigLIP:t\u00e4 kuvan ominaisuuksien koodaamiseen (sininen kooderi yll\u00e4 olevassa kuvassa), ja generointiteht\u00e4v\u00e4ss\u00e4 k\u00e4ytet\u00e4\u00e4n VQ-tokenisaattoria kuvan diskretisointiin (keltainen kooderi yll\u00e4 olevassa kuvassa). Lopuksi kaikki piirrejaksot sy\u00f6tet\u00e4\u00e4n LLM:\u00e4\u00e4n k\u00e4sitelt\u00e4v\u00e4ksi.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Training_strategy\"><\/span>Koulutusstrategia<span class=\"ez-toc-section-end\"><\/span><\/h2>\n\n\n\n<p>Koulutusstrategian osalta Janus-Pro on tehnyt lis\u00e4\u00e4 parannuksia. Januksen vanhassa versiossa k\u00e4ytettiin kolmivaiheista koulutusstrategiaa, jossa vaiheessa I koulutetaan sy\u00f6tt\u00f6sovitin ja kuvanmuodostusp\u00e4\u00e4 kuvan ymm\u00e4rt\u00e4mist\u00e4 ja kuvanmuodostusta varten, vaiheessa II suoritetaan yhten\u00e4inen esikoulutus ja vaiheessa III hienos\u00e4\u00e4det\u00e4\u00e4n ymm\u00e4rt\u00e4v\u00e4 kooderi t\u00e4m\u00e4n perusteella. (Januksen koulutusstrategia on esitetty alla olevassa kuvassa.)<\/p>\n\n\n\n<figure class=\"wp-block-image\"><img loading=\"lazy\" decoding=\"async\" width=\"1080\" height=\"381\" src=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/dbf6954f-1a18-4572-a452-ec995c8af71a.png\" alt=\"\" class=\"wp-image-849\" srcset=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/dbf6954f-1a18-4572-a452-ec995c8af71a.png 1080w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/dbf6954f-1a18-4572-a452-ec995c8af71a-300x106.png 300w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/dbf6954f-1a18-4572-a452-ec995c8af71a-1024x361.png 1024w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/dbf6954f-1a18-4572-a452-ec995c8af71a-768x271.png 768w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/dbf6954f-1a18-4572-a452-ec995c8af71a-18x6.png 18w\" sizes=\"auto, (max-width: 1080px) 100vw, 1080px\" \/><\/figure>\n\n\n\n<p>T\u00e4ss\u00e4 strategiassa k\u00e4ytet\u00e4\u00e4n kuitenkin PixArt-menetelm\u00e4\u00e4 tekstin ja kuvan v\u00e4lisen generoinnin harjoittelun jakamiseen vaiheessa II, mik\u00e4 heikent\u00e4\u00e4 laskennallista tehokkuutta.<\/p>\n\n\n\n<p>T\u00e4t\u00e4 varten pidensimme vaiheen I harjoitteluaikaa ja lis\u00e4simme harjoittelun ImageNet-tiedoilla, jotta malli voi tehokkaasti mallintaa pikseliriippuvuuksia kiinteill\u00e4 LLM-parametreilla. Vaiheessa II hylk\u00e4simme ImageNet-datan ja k\u00e4ytimme suoraan teksti-kuva-paridataa harjoitteluun, mik\u00e4 parantaa harjoittelun tehokkuutta. Lis\u00e4ksi s\u00e4\u00e4dimme vaiheessa III datan suhdetta (multimodaalinen:pelkk\u00e4 teksti:visuaalinen-semanttinen graafidata 7:3:10:st\u00e4 5:1:4:\u00e4\u00e4n), mik\u00e4 parantaa multimodaalista ymm\u00e4rryst\u00e4 s\u00e4ilytt\u00e4en samalla visuaaliset generointikyvyt.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Training_data_scaling\"><\/span>Koulutusdatan skaalaus<span class=\"ez-toc-section-end\"><\/span><\/h2>\n\n\n\n<p>Janus-Pro my\u00f6s skaalaa Januksen harjoitusdataa multimodaalisen ymm\u00e4rt\u00e4misen ja visuaalisen tuottamisen osalta.<\/p>\n\n\n\n<p>Multimodaalinen ymm\u00e4rt\u00e4minen: Se sis\u00e4lt\u00e4\u00e4 noin 90 miljoonaa uutta n\u00e4ytett\u00e4, mukaan lukien kuvatekstitiedot (kuten YFCC) sek\u00e4 taulukoiden, kaavioiden ja asiakirjojen ymm\u00e4rt\u00e4mist\u00e4 koskevat tiedot (kuten Docmatix).<\/p>\n\n\n\n<p>Vaiheen III valvotussa hienos\u00e4\u00e4t\u00f6vaiheessa otetaan lis\u00e4ksi k\u00e4ytt\u00f6\u00f6n MEME-ymm\u00e4rrys, kiinalaista dialogia koskevat tiedot jne. mallin suorituskyvyn parantamiseksi moniteht\u00e4v\u00e4prosessoinnissa ja vuoropuheluominaisuuksien parantamiseksi.<\/p>\n\n\n\n<p>Visuaalinen sukupolvi: Aiemmat versiot k\u00e4yttiv\u00e4t heikkolaatuisia ja kohinaisia todellisia tietoja, mik\u00e4 vaikutti tekstin tuottamien kuvien vakauteen ja esteettisyyteen.<\/p>\n\n\n\n<p>Janus-Pro sis\u00e4lt\u00e4\u00e4 noin 72 miljoonaa synteettist\u00e4 esteettist\u00e4 dataa, joten todellisen datan ja synteettisen datan suhde on 1:1. Kokeet ovat osoittaneet, ett\u00e4 synteettinen data nopeuttaa mallin konvergoitumista ja parantaa merkitt\u00e4v\u00e4sti tuotettujen kuvien vakautta ja esteettist\u00e4 laatua.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Model_scaling\"><\/span>Mallin skaalaus<span class=\"ez-toc-section-end\"><\/span><\/h2>\n\n\n\n<p>Janus Pro laajentaa mallin kokoa 7B:hen, kun taas Januksen edellisess\u00e4 versiossa k\u00e4ytettiin 1,5B DeepSeek-LLM:\u00e4\u00e4 visuaalisen koodauksen irrottamisen tehokkuuden todentamiseksi. Kokeet osoittavat, ett\u00e4 suurempi LLM nopeuttaa merkitt\u00e4v\u00e4sti multimodaalisen ymm\u00e4rt\u00e4misen ja visuaalisen generoinnin konvergenssia, mik\u00e4 todentaa edelleen menetelm\u00e4n vahvaa skaalautuvuutta.<\/p>\n\n\n\n<figure class=\"wp-block-image\"><img loading=\"lazy\" decoding=\"async\" width=\"864\" height=\"352\" src=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/a19590e2-1805-493d-85e3-09c9b8e2274b.png\" alt=\"\" class=\"wp-image-848\" srcset=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/a19590e2-1805-493d-85e3-09c9b8e2274b.png 864w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/a19590e2-1805-493d-85e3-09c9b8e2274b-300x122.png 300w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/a19590e2-1805-493d-85e3-09c9b8e2274b-768x313.png 768w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/a19590e2-1805-493d-85e3-09c9b8e2274b-18x7.png 18w\" sizes=\"auto, (max-width: 864px) 100vw, 864px\" \/><\/figure>\n\n\n\n<figure class=\"wp-block-image\"><img loading=\"lazy\" decoding=\"async\" width=\"1080\" height=\"536\" src=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/c78ed17c-6e07-43ef-bfda-ae287f597bba.png\" alt=\"\" class=\"wp-image-852\" srcset=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/c78ed17c-6e07-43ef-bfda-ae287f597bba.png 1080w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/c78ed17c-6e07-43ef-bfda-ae287f597bba-300x149.png 300w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/c78ed17c-6e07-43ef-bfda-ae287f597bba-1024x508.png 1024w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/c78ed17c-6e07-43ef-bfda-ae287f597bba-768x381.png 768w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/c78ed17c-6e07-43ef-bfda-ae287f597bba-18x9.png 18w\" sizes=\"auto, (max-width: 1080px) 100vw, 1080px\" \/><\/figure>\n\n\n\n<p>Kokeessa k\u00e4ytet\u00e4\u00e4n DeepSeek-LLM-mallia (1,5B ja 7B, tukee enint\u00e4\u00e4n 4096 sekvenssi\u00e4) peruskielimallina. Multimodaalisessa ymm\u00e4rt\u00e4misteht\u00e4v\u00e4ss\u00e4 visuaalisena koodaajana k\u00e4ytet\u00e4\u00e4n SigLIP-Large-Patch16-384:\u00e4\u00e4, koodaajan sanakirjakoko on 16384, kuvan downsampling-kerroin on 16, ja sek\u00e4 ymm\u00e4rt\u00e4mis- ett\u00e4 generointisovittimet ovat kaksikerroksisia MLP-malleja.<\/p>\n\n\n\n<p>Vaiheen II harjoittelussa k\u00e4ytet\u00e4\u00e4n 270K:n varhaista pys\u00e4ytysstrategiaa, kaikki kuvat s\u00e4\u00e4det\u00e4\u00e4n tasaisesti 384\u00d7384-resoluutioon, ja harjoittelun tehokkuuden parantamiseksi k\u00e4ytet\u00e4\u00e4n sekvenssipakkausta. Janus-Pro koulutetaan ja arvioidaan HAI-LLM:n avulla. Versiot 1,5B\/7B koulutettiin 16\/32 solmulla (8\u00d7Nvidia A100 40GB per solmu) 9\/14 p\u00e4iv\u00e4n ajan.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Model_evaluation\"><\/span>Mallin arviointi<span class=\"ez-toc-section-end\"><\/span><\/h2>\n\n\n\n<p>Janus-Pro:t\u00e4 arvioitiin erikseen multimodaalisessa ymm\u00e4rt\u00e4misess\u00e4 ja tuottamisessa. Kaiken kaikkiaan ymm\u00e4rt\u00e4minen saattaa olla hieman heikkoa, mutta sit\u00e4 pidet\u00e4\u00e4n erinomaisena samankokoisten avoimen l\u00e4hdekoodin mallien joukossa (arvatenkin sit\u00e4 rajoittaa pitk\u00e4lti kiinte\u00e4 sy\u00f6tt\u00f6tarkkuus ja OCR-ominaisuudet).<\/p>\n\n\n\n<p>Janus-Pro-7B sai MMBench-vertailutestiss\u00e4 79,2 pistett\u00e4, mik\u00e4 on l\u00e4hell\u00e4 avoimen l\u00e4hdekoodin ykk\u00f6smallien tasoa (InternVL2.5:n ja Qwen2-VL:n samankokoiset mallit ovat noin 82 pistett\u00e4). Se on kuitenkin hyv\u00e4 parannus Januksen edelliseen sukupolveen verrattuna.<\/p>\n\n\n\n<p>Kuvien luomisessa parannus edelliseen sukupolveen verrattuna on viel\u00e4kin merkitt\u00e4v\u00e4mpi, ja sit\u00e4 pidet\u00e4\u00e4n avoimen l\u00e4hdekoodin mallien joukossa erinomaisena. Janus-Pro:n pisteet GenEval-vertailutestiss\u00e4 (0,80) ylitt\u00e4v\u00e4t my\u00f6s sellaiset mallit kuin DALL-E 3 (0,67) ja Stable Diffusion 3 Medium (0,74).<\/p>\n\n\n\n<figure class=\"wp-block-image\"><img loading=\"lazy\" decoding=\"async\" width=\"1080\" height=\"827\" src=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/47aa92e1-b474-4874-956e-db210da9d349.png\" alt=\"\" class=\"wp-image-853\" srcset=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/47aa92e1-b474-4874-956e-db210da9d349.png 1080w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/47aa92e1-b474-4874-956e-db210da9d349-300x230.png 300w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/47aa92e1-b474-4874-956e-db210da9d349-1024x784.png 1024w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/47aa92e1-b474-4874-956e-db210da9d349-768x588.png 768w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/47aa92e1-b474-4874-956e-db210da9d349-16x12.png 16w\" sizes=\"auto, (max-width: 1080px) 100vw, 1080px\" \/><\/figure>\n\n\n\n<figure class=\"wp-block-image\"><img loading=\"lazy\" decoding=\"async\" width=\"1080\" height=\"744\" src=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/38de369b-7f1f-4159-83a7-5f411e816d55.png\" alt=\"\" class=\"wp-image-855\" srcset=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/38de369b-7f1f-4159-83a7-5f411e816d55.png 1080w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/38de369b-7f1f-4159-83a7-5f411e816d55-300x207.png 300w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/38de369b-7f1f-4159-83a7-5f411e816d55-1024x705.png 1024w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/38de369b-7f1f-4159-83a7-5f411e816d55-768x529.png 768w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/38de369b-7f1f-4159-83a7-5f411e816d55-18x12.png 18w\" sizes=\"auto, (max-width: 1080px) 100vw, 1080px\" \/><\/figure>","protected":false},"excerpt":{"rendered":"<p>DeepSeek-R1-malli julkaistiin kev\u00e4tjuhlan aattona. Puhtaan RL-arkkitehtuurin ansiosta se on ottanut oppia CoT:n suurista innovaatioista ja p\u00e4ihitt\u00e4\u00e4 ChatGPT:n matematiikassa, koodissa ja loogisessa p\u00e4\u00e4ttelyss\u00e4. Lis\u00e4ksi sen avoimen l\u00e4hdekoodin mallipainot, alhaiset koulutuskustannukset ja halvat API-hinnat ovat tehneet DeepSeekist\u00e4 hitin koko internetiss\u00e4, jopa...<\/p>","protected":false},"author":2,"featured_media":704,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_kadence_starter_templates_imported_post":false,"_kad_post_transparent":"","_kad_post_title":"","_kad_post_layout":"","_kad_post_sidebar_id":"","_kad_post_content_style":"","_kad_post_vertical_padding":"","_kad_post_feature":"","_kad_post_feature_position":"","_kad_post_header":false,"_kad_post_footer":false,"footnotes":""},"categories":[1],"tags":[],"class_list":["post-847","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-uncategorized"],"_links":{"self":[{"href":"https:\/\/janusai.pro\/fi\/wp-json\/wp\/v2\/posts\/847","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/janusai.pro\/fi\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/janusai.pro\/fi\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/janusai.pro\/fi\/wp-json\/wp\/v2\/users\/2"}],"replies":[{"embeddable":true,"href":"https:\/\/janusai.pro\/fi\/wp-json\/wp\/v2\/comments?post=847"}],"version-history":[{"count":1,"href":"https:\/\/janusai.pro\/fi\/wp-json\/wp\/v2\/posts\/847\/revisions"}],"predecessor-version":[{"id":856,"href":"https:\/\/janusai.pro\/fi\/wp-json\/wp\/v2\/posts\/847\/revisions\/856"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/janusai.pro\/fi\/wp-json\/wp\/v2\/media\/704"}],"wp:attachment":[{"href":"https:\/\/janusai.pro\/fi\/wp-json\/wp\/v2\/media?parent=847"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/janusai.pro\/fi\/wp-json\/wp\/v2\/categories?post=847"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/janusai.pro\/fi\/wp-json\/wp\/v2\/tags?post=847"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}