{"id":746,"date":"2025-01-30T13:05:33","date_gmt":"2025-01-30T13:05:33","guid":{"rendered":"https:\/\/janusai.pro\/?p=746"},"modified":"2025-01-30T13:05:35","modified_gmt":"2025-01-30T13:05:35","slug":"the-complete-explanation-from-deepseek-janus-to-janus-pro","status":"publish","type":"post","link":"https:\/\/janusai.pro\/fi\/the-complete-explanation-from-deepseek-janus-to-janus-pro\/","title":{"rendered":"T\u00e4ydellinen selitys: DeepSeek Januksesta Janus-Pro:hen!"},"content":{"rendered":"<div style=\"margin-top: 0px; margin-bottom: 0px;\" class=\"sharethis-inline-share-buttons\" ><\/div>\n<p>Vie viesti kotiin: Janus on yksinkertainen, yhten\u00e4inen ja laajennettavissa oleva multimodaalisen ymm\u00e4rt\u00e4misen ja tuottamisen malli, joka irrottaa multimodaalisen ymm\u00e4rt\u00e4misen ja tuotetun visuaalisen koodauksen toisistaan ja lievent\u00e4\u00e4 n\u00e4iden kahden teht\u00e4v\u00e4n v\u00e4lisi\u00e4 mahdollisia ristiriitoja. Sit\u00e4 voidaan laajentaa siten, ett\u00e4 siihen voidaan tulevaisuudessa sis\u00e4llytt\u00e4\u00e4 uusia sy\u00f6tt\u00f6tapoja. Janus-Pro rakentuu t\u00e4lle perustalle optimoimalla koulutusstrategiaa (mm. lis\u00e4\u00e4m\u00e4ll\u00e4 koulutusvaiheiden m\u00e4\u00e4r\u00e4\u00e4 ja s\u00e4\u00e4t\u00e4m\u00e4ll\u00e4 datasuhteita), lis\u00e4\u00e4m\u00e4ll\u00e4 dataa (mm. k\u00e4ytt\u00e4m\u00e4ll\u00e4 synteettist\u00e4 dataa) ja kasvattamalla mallin kokoa (7 miljardiin parametriin), mik\u00e4 johtaa mallin multimodaalisen ymm\u00e4rt\u00e4misen ja tekstin ja kuvan v\u00e4listen ohjeiden noudattamisen valmiuksien kehittymiseen.<\/p>\n\n\n\n<figure class=\"wp-block-image\"><img decoding=\"async\" src=\"https:\/\/rmy9ct2fln.feishu.cn\/space\/api\/box\/stream\/download\/asynccode\/?code=Mjg4MjEwYjVlNzk0YTgyMTc0NDJlODQ4MTU2ZmRjYTVfWnhaaVEyZlEwUHFrUHNUeGNCOWpCRU1EVDN0QktBMUxfVG9rZW46SkVQZmJmSEhqb1g4YTJ4MVNYdmNPT2oybmVmXzE3MzgyNDIwMzc6MTczODI0NTYzN19WNA\" alt=\"\"\/><\/figure>\n\n\n\n<p><a href=\"https:\/\/github.com\/deepseek-ai\/JanusJanus\" target=\"_blank\" rel=\"noreferrer noopener nofollow\">Koodiosoite<\/a><\/p>\n\n\n\n<p><a href=\"https:\/\/github.com\/deepseek-ai\/Janus\/blob\/main\/janus_pro_tech_report.pdf\" target=\"_blank\" rel=\"noreferrer noopener nofollow\">Janus Pro-osoite<\/a><\/p>\n\n\n\n<p><a href=\"https:\/\/huggingface.co\/deepseek-ai\/Janus-Pro-7B\" target=\"_blank\" rel=\"noreferrer noopener nofollow\">Janus-Pro<\/a> on edistynyt versio aiemmasta Janus-ty\u00f6st\u00e4, erityisesti (1) optimoidun koulutusstrategian, (2) laajennetun koulutusdatan ja (3) suurempien mallikokojen avulla. N\u00e4iden parannusten ansiosta Janus-Pro tekee merkitt\u00e4v\u00e4\u00e4 edistyst\u00e4 multimodaalisessa ymm\u00e4rt\u00e4misess\u00e4 ja tekstist\u00e4 kuvaan -ohjeiden noudattamisvalmiuksissa ja parantaa samalla tekstist\u00e4 kuvaan -generoinnin vakautta. Ennen Janus-Pro:n esittely\u00e4 k\u00e4yd\u00e4\u00e4n l\u00e4pi Janus.<\/p>\n\n\n\n<div id=\"ez-toc-container\" class=\"ez-toc-v2_0_72 counter-hierarchy ez-toc-counter ez-toc-grey ez-toc-container-direction\">\n<div class=\"ez-toc-title-container\">\n<p class=\"ez-toc-title\" style=\"cursor:inherit\">Sis\u00e4llysluettelo<\/p>\n<span class=\"ez-toc-title-toggle\"><a href=\"#\" class=\"ez-toc-pull-right ez-toc-btn ez-toc-btn-xs ez-toc-btn-default ez-toc-toggle\" aria-label=\"Sis\u00e4llysluettelon vaihtaminen\"><span class=\"ez-toc-js-icon-con\"><span class=\"\"><span class=\"eztoc-hide\" style=\"display:none;\">Toggle<\/span><span class=\"ez-toc-icon-toggle-span\"><svg style=\"fill: #999;color:#999\" xmlns=\"http:\/\/www.w3.org\/2000\/svg\" class=\"list-377408\" width=\"20px\" height=\"20px\" viewbox=\"0 0 24 24\" fill=\"none\"><path d=\"M6 6H4v2h2V6zm14 0H8v2h12V6zM4 11h2v2H4v-2zm16 0H8v2h12v-2zM4 16h2v2H4v-2zm16 0H8v2h12v-2z\" fill=\"currentColor\"><\/path><\/svg><svg style=\"fill: #999;color:#999\" class=\"arrow-unsorted-368013\" xmlns=\"http:\/\/www.w3.org\/2000\/svg\" width=\"10px\" height=\"10px\" viewbox=\"0 0 24 24\" version=\"1.2\" baseprofile=\"tiny\"><path d=\"M18.2 9.3l-6.2-6.3-6.2 6.3c-.2.2-.3.4-.3.7s.1.5.3.7c.2.2.4.3.7.3h11c.3 0 .5-.1.7-.3.2-.2.3-.5.3-.7s-.1-.5-.3-.7zM5.8 14.7l6.2 6.3 6.2-6.3c.2-.2.3-.5.3-.7s-.1-.5-.3-.7c-.2-.2-.4-.3-.7-.3h-11c-.3 0-.5.1-.7.3-.2.2-.3.5-.3.7s.1.5.3.7z\"\/><\/svg><\/span><\/span><\/span><\/a><\/span><\/div>\n<nav><ul class='ez-toc-list ez-toc-list-level-1' ><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-1\" href=\"https:\/\/janusai.pro\/fi\/the-complete-explanation-from-deepseek-janus-to-janus-pro\/#Reviewing_Janus\" title=\"Januksen tarkastelu\">Januksen tarkastelu<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-2\" href=\"https:\/\/janusai.pro\/fi\/the-complete-explanation-from-deepseek-janus-to-janus-pro\/#Janus_training_is_divided_into_3_phases\" title=\"Janus-koulutus on jaettu kolmeen vaiheeseen:\">Janus-koulutus on jaettu kolmeen vaiheeseen:<\/a><ul class='ez-toc-list-level-3' ><li class='ez-toc-heading-level-3'><a class=\"ez-toc-link ez-toc-heading-3\" href=\"https:\/\/janusai.pro\/fi\/the-complete-explanation-from-deepseek-janus-to-janus-pro\/#Phase_1\" title=\"Vaihe 1\">Vaihe 1<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-3'><a class=\"ez-toc-link ez-toc-heading-4\" href=\"https:\/\/janusai.pro\/fi\/the-complete-explanation-from-deepseek-janus-to-janus-pro\/#Phase_2\" title=\"Vaihe 2\">Vaihe 2<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-3'><a class=\"ez-toc-link ez-toc-heading-5\" href=\"https:\/\/janusai.pro\/fi\/the-complete-explanation-from-deepseek-janus-to-janus-pro\/#Phase_3\" title=\"Vaihe 3\">Vaihe 3<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-3'><a class=\"ez-toc-link ez-toc-heading-6\" href=\"https:\/\/janusai.pro\/fi\/the-complete-explanation-from-deepseek-janus-to-janus-pro\/#Training_Objectives\" title=\"Koulutuksen tavoitteet\">Koulutuksen tavoitteet<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-3'><a class=\"ez-toc-link ez-toc-heading-7\" href=\"https:\/\/janusai.pro\/fi\/the-complete-explanation-from-deepseek-janus-to-janus-pro\/#Reasoning\" title=\"Perustelut\">Perustelut<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-3'><a class=\"ez-toc-link ez-toc-heading-8\" href=\"https:\/\/janusai.pro\/fi\/the-complete-explanation-from-deepseek-janus-to-janus-pro\/#Possible_extensions\" title=\"Mahdolliset laajennukset\">Mahdolliset laajennukset<\/a><\/li><\/ul><\/li><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-9\" href=\"https:\/\/janusai.pro\/fi\/the-complete-explanation-from-deepseek-janus-to-janus-pro\/#Janus-Pro_Upgrade\" title=\"Janus-Pro p\u00e4ivitys\">Janus-Pro p\u00e4ivitys<\/a><ul class='ez-toc-list-level-3' ><li class='ez-toc-heading-level-3'><a class=\"ez-toc-link ez-toc-heading-10\" href=\"https:\/\/janusai.pro\/fi\/the-complete-explanation-from-deepseek-janus-to-janus-pro\/#Main_Improvements\" title=\"T\u00e4rkeimm\u00e4t parannukset\">T\u00e4rkeimm\u00e4t parannukset<\/a><ul class='ez-toc-list-level-4' ><li class='ez-toc-heading-level-4'><a class=\"ez-toc-link ez-toc-heading-11\" href=\"https:\/\/janusai.pro\/fi\/the-complete-explanation-from-deepseek-janus-to-janus-pro\/#Training_Strategy\" title=\"Koulutusstrategia\">Koulutusstrategia<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-4'><a class=\"ez-toc-link ez-toc-heading-12\" href=\"https:\/\/janusai.pro\/fi\/the-complete-explanation-from-deepseek-janus-to-janus-pro\/#Data_Scale\" title=\"Tietoasteikko\">Tietoasteikko<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-4'><a class=\"ez-toc-link ez-toc-heading-13\" href=\"https:\/\/janusai.pro\/fi\/the-complete-explanation-from-deepseek-janus-to-janus-pro\/#Model_Scale\" title=\"Mallin mittakaava\">Mallin mittakaava<\/a><\/li><\/ul><\/li><li class='ez-toc-page-1 ez-toc-heading-level-3'><a class=\"ez-toc-link ez-toc-heading-14\" href=\"https:\/\/janusai.pro\/fi\/the-complete-explanation-from-deepseek-janus-to-janus-pro\/#Experimental_details\" title=\"Kokeelliset yksityiskohdat\">Kokeelliset yksityiskohdat<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-3'><a class=\"ez-toc-link ez-toc-heading-15\" href=\"https:\/\/janusai.pro\/fi\/the-complete-explanation-from-deepseek-janus-to-janus-pro\/#Insufficient\" title=\"Riitt\u00e4m\u00e4t\u00f6n\">Riitt\u00e4m\u00e4t\u00f6n<\/a><\/li><\/ul><\/li><\/ul><\/nav><\/div>\n<h2 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Reviewing_Janus\"><\/span>Januksen tarkastelu<span class=\"ez-toc-section-end\"><\/span><\/h2>\n\n\n\n<p>Edelt\u00e4j\u00e4 Janus on autoregressiivinen kehys yhten\u00e4ist\u00e4 multimodaalista ymm\u00e4rt\u00e4mist\u00e4 ja tuottamista varten, jota k\u00e4ytet\u00e4\u00e4n visuaalisen koodauksen erottamiseen yhten\u00e4ist\u00e4 multimodaalista ymm\u00e4rt\u00e4mist\u00e4 ja tuottamista varten. Multimodaalista ymm\u00e4rt\u00e4mist\u00e4 varten suunnittelu noudattaa tyypillisesti LLaVA:ta, jossa visuaalisia koodaajia k\u00e4ytet\u00e4\u00e4n siltana, jotta suuret kielimallit voivat ymm\u00e4rt\u00e4\u00e4 kuvia. Generoinnissa se perustuu yleens\u00e4 diffuusiomalleihin, ja jotkut perustuvat autoregressiivisiin menetelmiin. Joissakin l\u00e4hestymistavoissa yritet\u00e4\u00e4n k\u00e4ytt\u00e4\u00e4 yht\u00e4 Transformeria, jolla yritet\u00e4\u00e4n yhdist\u00e4\u00e4 multimodaalinen ymm\u00e4rt\u00e4minen ja generointiteht\u00e4v\u00e4t, jolloin tyypillisesti k\u00e4ytet\u00e4\u00e4n yht\u00e4 visuaalista kooderia molempien teht\u00e4vien sy\u00f6tteiden k\u00e4sittelyyn.<\/p>\n\n\n\n<p>Multimodaalisten ymm\u00e4rt\u00e4mis- ja tuottamisteht\u00e4vien edellytt\u00e4miss\u00e4 representaatioissa on kuitenkin eroja. Multimodaalisessa ymm\u00e4rt\u00e4misteht\u00e4v\u00e4ss\u00e4 visuaalinen koodaaja pyrkii poimimaan korkean tason semanttista tietoa (esim. objektikategorioita tai visuaalisia attribuutteja), ja tulostuksessa ei ole kyse vain tiedon poimimisesta kuvasta vaan my\u00f6s monimutkaisesta semanttisesta p\u00e4\u00e4ttelyst\u00e4, jossa koodaaja keskittyy p\u00e4\u00e4asiassa korkea-ulotteisiin semanttisiin representaatioihin. Generointiteht\u00e4v\u00e4ss\u00e4 keskityt\u00e4\u00e4n p\u00e4\u00e4asiassa paikallisten yksityiskohtien tuottamiseen ja kuvan globaalin johdonmukaisuuden yll\u00e4pit\u00e4miseen, mik\u00e4 edellytt\u00e4\u00e4 matalaulotteisia koodattuja esityksi\u00e4 avaruudellisista rakenteista ja tekstuurin yksityiskohdista. Molempien teht\u00e4vien representaatioiden yhdist\u00e4minen samaan tilaan voi johtaa ristiriitoihin.<\/p>\n\n\n\n<p>Janus sis\u00e4lt\u00e4\u00e4 kaksi toisistaan riippumatonta visuaalista koodausreitti\u00e4 multimodaalista ymm\u00e4rt\u00e4mist\u00e4 ja tuottamista varten, ja se tuo mukanaan kaksi etua: 1) lievent\u00e4\u00e4 ristiriitoja, jotka johtuvat multimodaalisen ymm\u00e4rt\u00e4misen ja tuottamisen erilaisista rakeisuusvaatimuksista, ja 2) on joustava ja skaalautuva, sill\u00e4 se on erotettu toisistaan siten, ett\u00e4 sek\u00e4 ymm\u00e4rt\u00e4mis- ett\u00e4 tuottamisteht\u00e4v\u00e4t voidaan koodata k\u00e4ytt\u00e4m\u00e4ll\u00e4 aloilleen ominaisia uusimpia koodaustekniikoita, ja tulevaisuudessa niihin voidaan sy\u00f6tt\u00e4\u00e4 pistepilvi\u00e4, EEG-signaaleja tai \u00e4\u00e4nidataa, ja niit\u00e4 voidaan k\u00e4sitell\u00e4 yhten\u00e4isell\u00e4 Tulevaisuudessa pistepilvi\u00e4, EEG-signaaleja tai \u00e4\u00e4nidataa voidaan sy\u00f6tt\u00e4\u00e4 ja niit\u00e4 voidaan k\u00e4sitell\u00e4 yhten\u00e4isell\u00e4 muuntajalla.<\/p>\n\n\n\n<figure class=\"wp-block-image\"><img decoding=\"async\" src=\"https:\/\/rmy9ct2fln.feishu.cn\/space\/api\/box\/stream\/download\/asynccode\/?code=OTE3ZjkyNWQ5MmUwNDQzM2VjN2VlNWYwZjAxYTVmZGRfMXpJMWVObDBKOHYxTVJqeEw2S0pHT2hGU3RuVHdnWVdfVG9rZW46UDQyQ2Jrb0Myb1h0bjR4TFBrV2NRS29GbkRmXzE3MzgyNDIwMzc6MTczODI0NTYzN19WNA\" alt=\"\"\/><\/figure>\n\n\n\n<p>Tekstin ymm\u00e4rt\u00e4mist\u00e4 varten teksti muunnetaan erillisiksi tunnuksiksi LLM:n sis\u00e4\u00e4nrakennetulla Tokenizerilla;<\/p>\n\n\n\n<p>Multimodaalista ymm\u00e4rt\u00e4mist\u00e4 varten kuvien korkea-ulotteiset semanttiset piirteet poimitaan SigLIP-koodereiden avulla (tekij\u00e4n huomautus: Cosmos k\u00e4ytt\u00e4\u00e4 my\u00f6s SigLIP-koodereita Guardrails-osiossa), ja poimitut piirteet kartoitetaan LLM:n tekstiominaisuusavaruuteen Adaptorin (2-kerroksinen MLP) avulla;<\/p>\n\n\n\n<p>Pitk\u00e4 puoli s\u00e4\u00e4dettiin 384 pikseliin ja lyhyt puoli t\u00e4ytettiin 384 pikseliin RGB(127, 127, 127) -v\u00e4rill\u00e4;<\/p>\n\n\n\n<p>Visuaalista tuottamista varten kuva muunnettiin erillisiksi tunnuksiksi VQ Tokenizer -ohjelmalla, ja kukin tunnus kuvattiin LLM:n tekstuaaliseen ominaisuusavaruuteen Adaptor-ohjelmalla (2-kerroksinen MLP);<\/p>\n\n\n\n<p>Lyhyiden reunojen kokoa muutettiin 384 pikseliin ja pitkien reunojen kokoa leikattiin 384 pikseliin;<\/p>\n\n\n\n<p>Kokonaisharjoittelu suoritettiin 16 solmulla, joista kukin sis\u00e4lsi 8 Nvidia A100 GPU:ta;<\/p>\n\n\n\n<p>Sek\u00e4 visuaalisen tuottamisen ett\u00e4 multimodaalisen ymm\u00e4rt\u00e4misen teht\u00e4viss\u00e4 kuvan ja tekstin ominaisuussekvenssit yhdistet\u00e4\u00e4n toisiinsa LLM:n sy\u00f6tteen\u00e4 (tekstiss\u00e4 k\u00e4ytet\u00e4\u00e4n DeepSeek-LLM 1.3B:t\u00e4);<\/p>\n\n\n\n<blockquote class=\"wp-block-quote is-layout-flow wp-block-quote-is-layout-flow\">\n<p>LLM:n sis\u00e4\u00e4nrakennettua ennustusp\u00e4\u00e4t\u00e4 k\u00e4ytet\u00e4\u00e4n tekstin ennustamiseen sek\u00e4 pelk\u00e4n tekstin ymm\u00e4rt\u00e4mis- ett\u00e4 multimodaalisen ymm\u00e4rt\u00e4misen teht\u00e4viss\u00e4, kun taas satunnaisesti alustettua ennustusp\u00e4\u00e4t\u00e4 k\u00e4ytet\u00e4\u00e4n kuvien ennustamiseen visuaalisen tuottamisen teht\u00e4v\u00e4ss\u00e4. Koko malli noudattaa autoregressiivist\u00e4 kehyst\u00e4 ilman erityisesti suunniteltuja huomiomaskeja.<\/p>\n<\/blockquote>\n\n\n\n<h2 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Janus_training_is_divided_into_3_phases\"><\/span><a href=\"https:\/\/huggingface.co\/deepseek-ai\/Janus-Pro-7B\" target=\"_blank\" rel=\"noreferrer noopener nofollow\">Janus-koulutus<\/a> on jaettu kolmeen vaiheeseen:<span class=\"ez-toc-section-end\"><\/span><\/h2>\n\n\n\n<h3 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Phase_1\"><\/span>Vaihe 1<span class=\"ez-toc-section-end\"><\/span><\/h3>\n\n\n\n<p><strong>Junan sovitin ja kuvap\u00e4\u00e4<\/strong> luoda yhteyksi\u00e4 kielellisten ja visuaalisten elementtien v\u00e4lille upotusavaruudessa, jolloin LLM ymm\u00e4rt\u00e4\u00e4 kuvassa olevia kokonaisuuksia ja sill\u00e4 on ensimm\u00e4iset visuaaliset luomisvalmiudet;<\/p>\n\n\n\n<p>K\u00e4yt\u00e4 multimodaalista ymm\u00e4rt\u00e4mist\u00e4 varten 1,25 miljoonan kuvan ja tekstin muodostamaa paritettua kuvatekstitietoa SHareGPT4V-muodossa: ;<\/p>\n\n\n\n<p>Visuaalista luomista varten k\u00e4ytet\u00e4\u00e4n 1,2 miljoonaa ImageNet1k:n n\u00e4ytett\u00e4 muodossa: ;<\/p>\n\n\n\n<h3 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Phase_2\"><\/span>Vaihe 2<span class=\"ez-toc-section-end\"><\/span><\/h3>\n\n\n\n<p><strong>Yhten\u00e4inen esivalmennus<\/strong>, k\u00e4ytt\u00e4m\u00e4ll\u00e4 multimodaalista korpusta yhten\u00e4iseen esiharjoitteluun multimodaalisen ymm\u00e4rt\u00e4misen ja tuottamisen oppimiseksi. T\u00e4ss\u00e4 vaiheessa k\u00e4ytet\u00e4\u00e4n pelkk\u00e4\u00e4 tekstidataa, multimodaalista ymm\u00e4rt\u00e4mist\u00e4 koskevaa dataa ja visuaalista tuottamista koskevaa dataa. Yksinkertainen visuaalisen tuottamisen harjoittelu ImageNet-1k:n avulla, mink\u00e4 j\u00e4lkeen k\u00e4ytet\u00e4\u00e4n yleist\u00e4 tekstist\u00e4 kuvaan -dataa visuaalisen tuottamisen tehostamiseksi mallin avoimella alueella;<\/p>\n\n\n\n<p>Pelkk\u00e4 tekstimuotoinen tieto: DeepSeek-LLM esivalmennettu korpus;<\/p>\n\n\n\n<p>Kuvan ja tekstin lomitetut tiedot: WikiHow- ja WIT-aineistot;<\/p>\n\n\n\n<p>Kuvan kuvateksti: Kuvat useista eri l\u00e4hteist\u00e4, ja osa kuvista kuvatekstattu uudelleen k\u00e4ytt\u00e4en avoimen l\u00e4hdekoodin multimodaalisia malleja, ja tiedot on muotoiltu kysymys- ja vastauspareiksi, esim. Kuvaile kuvaa yksityiskohtaisesti.;<\/p>\n\n\n\n<p>Taulukkomuotoiset ja graafiset tiedot: vastaavat taulukkomuotoiset ja graafiset tiedot DeepSeek-VL:st\u00e4 muodossa ;<\/p>\n\n\n\n<p>Visuaalisesti tuotetut tiedot: kuva-otsikkoparit useista tietokokonaisuuksista ja 2 miljoonaa sis\u00e4ist\u00e4 tietoa;<\/p>\n\n\n\n<p>Harjoittelun aikana k\u00e4ytet\u00e4\u00e4n satunnaisesti vain kuvatekstin ensimm\u00e4ist\u00e4 lausetta 25%-todenn\u00e4k\u00f6isyydell\u00e4;<\/p>\n\n\n\n<p>ImageNet-n\u00e4ytteet esiintyv\u00e4t vain ensimm\u00e4isiss\u00e4 120 000 harjoitusvaiheessa, ja muiden tietokokonaisuuksien kuvat esiintyv\u00e4t my\u00f6hemmiss\u00e4 60 000 vaiheessa;<\/p>\n\n\n\n<h3 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Phase_3\"><\/span>Vaihe 3<span class=\"ez-toc-section-end\"><\/span><\/h3>\n\n\n\n<p><strong>Valvottu hienos\u00e4\u00e4t\u00f6<\/strong>, jossa esivalmennettuja malleja hienos\u00e4\u00e4det\u00e4\u00e4n ohjeiden hienos\u00e4\u00e4t\u00f6tietojen avulla, jotta niiden kyky seurata ohjeita ja vuoropuhelua paranee. Hienos\u00e4\u00e4d\u00e4 kaikki parametrit paitsi generoiva kooderi. J\u00e4rjestelm\u00e4n ja k\u00e4ytt\u00e4j\u00e4n vihjeiden peitt\u00e4minen vastauksia valvoessa. Sen varmistamiseksi, ett\u00e4 Janus osaa sek\u00e4 multimodaalisen ymm\u00e4rt\u00e4misen ett\u00e4 generoinnin, malleja ei hienos\u00e4\u00e4det\u00e4 erikseen tiettyj\u00e4 teht\u00e4vi\u00e4 varten. Sen sijaan k\u00e4yt\u00e4mme sekoitusta pelkk\u00e4\u00e4 teksti\u00e4 sis\u00e4lt\u00e4v\u00e4\u00e4 dialogidataa, multimodaalista ymm\u00e4rt\u00e4mist\u00e4 koskevaa dataa ja visuaalista generointia koskevaa dataa, jotta voimme varmistaa monipuolisuuden erilaisissa skenaarioissa;<\/p>\n\n\n\n<p>Tekstin ymm\u00e4rt\u00e4minen: k\u00e4ytt\u00e4\u00e4 tietyist\u00e4 l\u00e4hteist\u00e4 saatuja tietoja;<\/p>\n\n\n\n<p>Multimodaalinen ymm\u00e4rt\u00e4minen: useista l\u00e4hteist\u00e4 saatavien tietojen k\u00e4ytt\u00f6 opetuksen viritt\u00e4miseen;<\/p>\n\n\n\n<p>Visuaalinen luominen: k\u00e4ytt\u00e4en osajoukkoa kuva-tekstipareista joistakin vaiheen II tietokokonaisuuksista sek\u00e4 4 miljoonaa sis\u00e4ist\u00e4 tietoa;<\/p>\n\n\n\n<p>Tietomuoto on: K\u00e4ytt\u00e4j\u00e4: \\n Assistentti: ;<\/p>\n\n\n\n<figure class=\"wp-block-image\"><img decoding=\"async\" src=\"https:\/\/rmy9ct2fln.feishu.cn\/space\/api\/box\/stream\/download\/asynccode\/?code=M2I3MWQ5MjQyNTM5NjIyZTkyMjdlODgwMDg5NzIwYzJfSGVTUnVzb0I3bEREQXBkMEJGN0lqT0JBaEVUWEQwS05fVG9rZW46Vm9OMWJzYnNsbzRGR1R4YlJrNWNad1psblhjXzE3MzgyNDIwMzc6MTczODI0NTYzN19WNA\" alt=\"\"\/><\/figure>\n\n\n\n<h3 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Training_Objectives\"><\/span>Koulutuksen tavoitteet<span class=\"ez-toc-section-end\"><\/span><\/h3>\n\n\n\n<p>Janus on autoregressiivinen malli, joka on koulutettu k\u00e4ytt\u00e4m\u00e4ll\u00e4 risti-entropian h\u00e4vi\u00f6funktiota. Tavallisen tekstin ymm\u00e4rt\u00e4misess\u00e4 ja multimodaalisissa ymm\u00e4rt\u00e4misteht\u00e4viss\u00e4 h\u00e4vi\u00f6 lasketaan tekstisekvenssiss\u00e4. Visuaalisissa generointiteht\u00e4viss\u00e4 h\u00e4vi\u00f6 lasketaan vain kuvasekvenssiss\u00e4. Suunnittelun pit\u00e4miseksi yksinkertaisena eri teht\u00e4ville ei anneta erilaisia tappiopainoja.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Reasoning\"><\/span>Perustelut<span class=\"ez-toc-section-end\"><\/span><\/h3>\n\n\n\n<p>Seuraavan leksikaalisen elementin ennustamismenetelm\u00e4\u00e4 k\u00e4ytett\u00e4ess\u00e4 tavallisen tekstin ymm\u00e4rt\u00e4misess\u00e4 ja multimodaalisessa ymm\u00e4rt\u00e4misess\u00e4 leksikaaliset elementit poimitaan per\u00e4kk\u00e4in ennustejakaumasta. Kuvanmuodostuksessa k\u00e4ytet\u00e4\u00e4n luokittelematonta bootstrap-menetelm\u00e4\u00e4.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Possible_extensions\"><\/span>Mahdolliset laajennukset<span class=\"ez-toc-section-end\"><\/span><\/h3>\n\n\n\n<p>Multimodaalista ymm\u00e4rt\u00e4mist\u00e4 varten voitaisiin 1) valita vahvempi visuaalinen kooderi ja 2) k\u00e4ytt\u00e4\u00e4 dynaamisia korkean resoluution tekniikoita;<\/p>\n\n\n\n<p>N\u00e4\u00f6n tuottamiseen voitaisiin valita 1) hienojakoisempia koodaajia, 2) k\u00e4ytt\u00e4\u00e4 nimenomaan n\u00e4\u00f6n tuottamiseen suunniteltuja h\u00e4vi\u00f6funktioita ja 3) yhdist\u00e4\u00e4 kausaalinen huomio ja rinnakkaiset menetelm\u00e4t;<\/p>\n\n\n\n<p>Enemm\u00e4n modaliteetteja, kun 3D-pistepilvi\u00e4, haptisia ominaisuuksia, EEG:t\u00e4 ja muita h\u00e4vi\u00e4mismodaliteettien sy\u00f6tteit\u00e4 voidaan integroida;<\/p>\n\n\n\n<h2 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Janus-Pro_Upgrade\"><\/span><a href=\"https:\/\/huggingface.co\/deepseek-ai\/Janus-Pro-7B\" target=\"_blank\" rel=\"noreferrer noopener nofollow\">Janus-Pro p\u00e4ivitys<\/a><span class=\"ez-toc-section-end\"><\/span><\/h2>\n\n\n\n<p>Janus on rajallinen harjoitusdatan ja suhteellisen pienen mallikapasiteetin (1B) vuoksi puutteellinen joiltakin osin, kuten esimerkiksi kuvan tuottamisen huono esitys lyhyiden vihjeiden perusteella ja tekstist\u00e4 kuvaan -muodostuksen ep\u00e4johdonmukainen laatu.Janus-Pro:n arkkitehtuuri on sama kuin Januksen, mik\u00e4 n\u00e4kyy alla olevasta kuvasta:<\/p>\n\n\n\n<figure class=\"wp-block-image\"><img decoding=\"async\" src=\"https:\/\/rmy9ct2fln.feishu.cn\/space\/api\/box\/stream\/download\/asynccode\/?code=NDY0ZWM0NTJiOTNlYTE4MWI4NmMwNGE4Mjc3NmYyMDJfc1FEMHVOMHo1OUM0ZVhoakJtU1lZQXdZNTd4NVFXRzhfVG9rZW46RjJrTGI3VVlqb0IxS3N4aHVVN2NxUWxJbnZkXzE3MzgyNDIwMzc6MTczODI0NTYzN19WNA\" alt=\"\"\/><\/figure>\n\n\n\n<h3 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Main_Improvements\"><\/span>T\u00e4rkeimm\u00e4t parannukset<span class=\"ez-toc-section-end\"><\/span><\/h3>\n\n\n\n<h4 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Training_Strategy\"><\/span>Koulutusstrategia<span class=\"ez-toc-section-end\"><\/span><\/h4>\n\n\n\n<p>Vaihe 1: Lis\u00e4\u00e4 harjoitteluvaiheiden m\u00e4\u00e4r\u00e4\u00e4 ja harjoittelu ImageNetill\u00e4;<\/p>\n\n\n\n<p>Vaihe 2: Ei en\u00e4\u00e4 ImageNeti\u00e4, vaan k\u00e4ytet\u00e4\u00e4n suoraan tavallista tekstist\u00e4 kuvaan -dataa harjoitteluun;<\/p>\n\n\n\n<p>Vaihe 3: Muutetaan tietokokonaisuuksien suhteita hienos\u00e4\u00e4t\u00f6prosessissa muuttamalla multimodaalisen datan, pelk\u00e4n tekstidatan ja tekstin ja kuvan v\u00e4linen suhde 7:3:10:st\u00e4 5:1:4:\u00e4\u00e4n;<\/p>\n\n\n\n<h4 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Data_Scale\"><\/span>Tietoasteikko<span class=\"ez-toc-section-end\"><\/span><\/h4>\n\n\n\n<p>Multimodaalinen ymm\u00e4rt\u00e4minen<\/p>\n\n\n\n<p>Vaihe 2: Lis\u00e4t\u00e4\u00e4n 90 miljoonaa n\u00e4ytett\u00e4, mukaan lukien YFCC kuvien otsikointiin ja Doc-matrix taulukko- ja kaavioasiakirjojen ymm\u00e4rt\u00e4miseen;<\/p>\n\n\n\n<p>Vaihe 3: Lis\u00e4\u00e4 DeepSeek-VL2-lis\u00e4tietoaineistoja, kuten MEME-ymm\u00e4rrys;<\/p>\n\n\n\n<p>Visuaalinen generointi: reaalimaailman datan laatu voi olla huono, mik\u00e4 johtaa ep\u00e4vakaaseen tekstin ja kuvan v\u00e4liseen generointiin ja huonoon esteettiseen tulokseen. Janus-Pro k\u00e4ytt\u00e4\u00e4 72 miljoonaa n\u00e4ytett\u00e4 synteettist\u00e4 esteettist\u00e4 dataa, ja esiharjoitteluvaiheessa (vaihe 2) reaalidatan ja synteettisen datan suhde on 1:1;<\/p>\n\n\n\n<h4 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Model_Scale\"><\/span>Mallin mittakaava<span class=\"ez-toc-section-end\"><\/span><\/h4>\n\n\n\n<p>Skaalaa mallin parametrit 7 miljardin parametrin mittakaavaan;<\/p>\n\n\n\n<h3 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Experimental_details\"><\/span>Kokeelliset yksityiskohdat<span class=\"ez-toc-section-end\"><\/span><\/h3>\n\n\n\n<p>Janukseen verrattuna Janus-Pro-kokeiden yksityiskohdat ovat periaatteessa samat. Sen sijaan suuremman parametrin mallissa k\u00e4ytettiin enemm\u00e4n klusterisolmuja (16-32).<\/p>\n\n\n\n<figure class=\"wp-block-image\"><img decoding=\"async\" src=\"https:\/\/rmy9ct2fln.feishu.cn\/space\/api\/box\/stream\/download\/asynccode\/?code=NDM1YTM1ZDliNDUwYzAzNzg4MTNiNjUzYWZlZjVhZjhfZGI5ZWloREhYV29OZUxiaEVFc0dhN1dMTDhGdG5ZSnNfVG9rZW46STA0amJtbVlhb0NySk94NkRKNmNqNDVybmdiXzE3MzgyNDIwMzc6MTczODI0NTYzN19WNA\" alt=\"\"\/><\/figure>\n\n\n\n<p>Janus-Pro-hyperparametrit<\/p>\n\n\n\n<h3 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Insufficient\"><\/span>Riitt\u00e4m\u00e4t\u00f6n<span class=\"ez-toc-section-end\"><\/span><\/h3>\n\n\n\n<p>Multimodaalista ymm\u00e4rt\u00e4mist\u00e4 varten sy\u00f6tteen resoluutio on rajoitettu 384\u00d7384:\u00e4\u00e4n, mik\u00e4 vaikuttaa suorituskykyyn hienojakoisissa visuaalisissa teht\u00e4viss\u00e4. Tekstist\u00e4 kuvaan -tuotannossa alhainen resoluutio johtaa yksityiskohtaisuuden puutteeseen tuotetuissa tuloksissa.<\/p>","protected":false},"excerpt":{"rendered":"<p>Vie viesti kotiin: Janus on yksinkertainen, yhten\u00e4inen ja laajennettavissa oleva multimodaalisen ymm\u00e4rt\u00e4misen ja tuottamisen malli, joka irrottaa multimodaalisen ymm\u00e4rt\u00e4misen ja tuotetun visuaalisen koodauksen toisistaan ja lievent\u00e4\u00e4 n\u00e4iden kahden teht\u00e4v\u00e4n v\u00e4lisi\u00e4 mahdollisia ristiriitoja. Sit\u00e4 voidaan laajentaa siten, ett\u00e4 siihen voidaan tulevaisuudessa sis\u00e4llytt\u00e4\u00e4 uusia sy\u00f6tt\u00f6tapoja. Janus-Pro rakentuu t\u00e4lle perustalle optimoimalla harjoitusstrategian (mukaan lukien...<\/p>","protected":false},"author":2,"featured_media":684,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_kadence_starter_templates_imported_post":false,"_kad_post_transparent":"","_kad_post_title":"","_kad_post_layout":"","_kad_post_sidebar_id":"","_kad_post_content_style":"","_kad_post_vertical_padding":"","_kad_post_feature":"","_kad_post_feature_position":"","_kad_post_header":false,"_kad_post_footer":false,"footnotes":""},"categories":[1],"tags":[],"class_list":["post-746","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-uncategorized"],"_links":{"self":[{"href":"https:\/\/janusai.pro\/fi\/wp-json\/wp\/v2\/posts\/746","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/janusai.pro\/fi\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/janusai.pro\/fi\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/janusai.pro\/fi\/wp-json\/wp\/v2\/users\/2"}],"replies":[{"embeddable":true,"href":"https:\/\/janusai.pro\/fi\/wp-json\/wp\/v2\/comments?post=746"}],"version-history":[{"count":1,"href":"https:\/\/janusai.pro\/fi\/wp-json\/wp\/v2\/posts\/746\/revisions"}],"predecessor-version":[{"id":747,"href":"https:\/\/janusai.pro\/fi\/wp-json\/wp\/v2\/posts\/746\/revisions\/747"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/janusai.pro\/fi\/wp-json\/wp\/v2\/media\/684"}],"wp:attachment":[{"href":"https:\/\/janusai.pro\/fi\/wp-json\/wp\/v2\/media?parent=746"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/janusai.pro\/fi\/wp-json\/wp\/v2\/categories?post=746"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/janusai.pro\/fi\/wp-json\/wp\/v2\/tags?post=746"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}