{"id":857,"date":"2025-02-04T16:45:13","date_gmt":"2025-02-04T16:45:13","guid":{"rendered":"https:\/\/janusai.pro\/?p=857"},"modified":"2025-02-04T16:45:15","modified_gmt":"2025-02-04T16:45:15","slug":"in-depth-analysis-what-innovations-does-deepseeks-newly-released-janus-pro-have","status":"publish","type":"post","link":"https:\/\/janusai.pro\/da\/in-depth-analysis-what-innovations-does-deepseeks-newly-released-janus-pro-have\/","title":{"rendered":"Dybdeg\u00e5ende analyse: Hvilke nyskabelser har DeepSeeks nyligt udgivne Janus-Pro?"},"content":{"rendered":"<div style=\"margin-top: 0px; margin-bottom: 0px;\" class=\"sharethis-inline-share-buttons\" ><\/div>\n<p>DeepSeek har opdateret sin hjemmeside.<\/p>\n\n\n\n<p>I de tidlige timer af nyt\u00e5rsaften annoncerede DeepSeek pludselig p\u00e5 GitHub, at Janus-projektrummet havde \u00e5bnet kilden til Janus-Pro-modellen og den tekniske rapport.<\/p>\n\n\n\n<p>Lad os f\u00f8rst fremh\u00e6ve et par vigtige punkter:<\/p>\n\n\n\n<ol start=\"1\" class=\"wp-block-list\">\n<li>Den <a href=\"https:\/\/huggingface.co\/deepseek-ai\/Janus-Pro-7B\" target=\"_blank\" rel=\"noreferrer noopener nofollow\">Janus-Pro-model<\/a> udgivet denne gang er en multimodal model, der<strong> kan samtidig udf\u00f8re multimodal forst\u00e5else og billedgenereringsopgaver. Den har i alt to parameterversioner, <a href=\"https:\/\/huggingface.co\/deepseek-ai\/Janus-Pro-7B\" target=\"_blank\" rel=\"noreferrer noopener nofollow\">Janus-Pro-1B og Janus-Pro-7B<\/a>.<\/strong><\/li>\n\n\n\n<li>Den centrale innovation i Janus-Pro er at afkoble<strong> multimodal forst\u00e5else og generering, to forskellige opgaver. Det g\u00f8r det muligt at udf\u00f8re disse to opgaver effektivt i den samme model.<\/strong>.<\/li>\n\n\n\n<li>Janus-Pro er i overensstemmelse med Janus-modelarkitekturen, som DeepSeek udgav i oktober sidste \u00e5r, men p\u00e5 det tidspunkt havde Janus ikke meget volumen. Dr. Charles, en algoritmeekspert inden for synsomr\u00e5det, fortalte os, at den tidligere Janus var \"gennemsnitlig\" og \"ikke s\u00e5 god som DeepSeeks sprogmodel\".<\/li>\n<\/ol>\n\n\n\n<figure class=\"wp-block-image\"><img loading=\"lazy\" decoding=\"async\" width=\"1870\" height=\"1804\" src=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/720ad345-4902-46e0-9185-bc4f887ed302.png\" alt=\"\" class=\"wp-image-859\" srcset=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/720ad345-4902-46e0-9185-bc4f887ed302.png 1870w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/720ad345-4902-46e0-9185-bc4f887ed302-300x289.png 300w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/720ad345-4902-46e0-9185-bc4f887ed302-1024x988.png 1024w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/720ad345-4902-46e0-9185-bc4f887ed302-768x741.png 768w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/720ad345-4902-46e0-9185-bc4f887ed302-1536x1482.png 1536w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/720ad345-4902-46e0-9185-bc4f887ed302-12x12.png 12w\" sizes=\"auto, (max-width: 1870px) 100vw, 1870px\" \/><\/figure>\n\n\n\n<div id=\"ez-toc-container\" class=\"ez-toc-v2_0_82_2 counter-hierarchy ez-toc-counter ez-toc-grey ez-toc-container-direction\">\n<div class=\"ez-toc-title-container\">\n<p class=\"ez-toc-title\" style=\"cursor:inherit\">Indholdsfortegnelse<\/p>\n<span class=\"ez-toc-title-toggle\"><a href=\"#\" class=\"ez-toc-pull-right ez-toc-btn ez-toc-btn-xs ez-toc-btn-default ez-toc-toggle\" aria-label=\"Skift til indholdsfortegnelse\"><span class=\"ez-toc-js-icon-con\"><span class=\"\"><span class=\"eztoc-hide\" style=\"display:none;\">Toggle<\/span><span class=\"ez-toc-icon-toggle-span\"><svg style=\"fill: #999;color:#999\" xmlns=\"http:\/\/www.w3.org\/2000\/svg\" class=\"list-377408\" width=\"20px\" height=\"20px\" viewbox=\"0 0 24 24\" fill=\"none\"><path d=\"M6 6H4v2h2V6zm14 0H8v2h12V6zM4 11h2v2H4v-2zm16 0H8v2h12v-2zM4 16h2v2H4v-2zm16 0H8v2h12v-2z\" fill=\"currentColor\"><\/path><\/svg><svg style=\"fill: #999;color:#999\" class=\"arrow-unsorted-368013\" xmlns=\"http:\/\/www.w3.org\/2000\/svg\" width=\"10px\" height=\"10px\" viewbox=\"0 0 24 24\" version=\"1.2\" baseprofile=\"tiny\"><path d=\"M18.2 9.3l-6.2-6.3-6.2 6.3c-.2.2-.3.4-.3.7s.1.5.3.7c.2.2.4.3.7.3h11c.3 0 .5-.1.7-.3.2-.2.3-.5.3-.7s-.1-.5-.3-.7zM5.8 14.7l6.2 6.3 6.2-6.3c.2-.2.3-.5.3-.7s-.1-.5-.3-.7c-.2-.2-.4-.3-.7-.3h-11c-.3 0-.5.1-.7.3-.2.2-.3.5-.3.7s.1.5.3.7z\"\/><\/svg><\/span><\/span><\/span><\/a><\/span><\/div>\n<nav><ul class='ez-toc-list ez-toc-list-level-1' ><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-1\" href=\"https:\/\/janusai.pro\/da\/in-depth-analysis-what-innovations-does-deepseeks-newly-released-janus-pro-have\/#It_is_intended_to_solve_the_industrys_difficult_problem_balancing_multimodal_understanding_and_image_generation\" >Den skal l\u00f8se branchens sv\u00e6re problem: at balancere multimodal forst\u00e5else og billedgenerering.<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-2\" href=\"https:\/\/janusai.pro\/da\/in-depth-analysis-what-innovations-does-deepseeks-newly-released-janus-pro-have\/#Januss_decoupled_architecture_and_Janus-Pros_optimized_training_strategy\" >Janus' afkoblede arkitektur og Janus-Pro's optimerede tr\u00e6ningsstrategi<\/a><ul class='ez-toc-list-level-3' ><li class='ez-toc-heading-level-3'><a class=\"ez-toc-link ez-toc-heading-3\" href=\"https:\/\/janusai.pro\/da\/in-depth-analysis-what-innovations-does-deepseeks-newly-released-janus-pro-have\/#First_lets_look_at_the_parameters\" >Lad os f\u00f8rst se p\u00e5 parametrene.<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-3'><a class=\"ez-toc-link ez-toc-heading-4\" href=\"https:\/\/janusai.pro\/da\/in-depth-analysis-what-innovations-does-deepseeks-newly-released-janus-pro-have\/#There_is_also_the_training_strategy\" >Der er ogs\u00e5 en tr\u00e6ningsstrategi.<\/a><ul class='ez-toc-list-level-4' ><li class='ez-toc-heading-level-4'><a class=\"ez-toc-link ez-toc-heading-5\" href=\"https:\/\/janusai.pro\/da\/in-depth-analysis-what-innovations-does-deepseeks-newly-released-janus-pro-have\/#Stage_I_%E2%80%93_Longer_training_time\" >Fase I - L\u00e6ngere tr\u00e6ningstid<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-4'><a class=\"ez-toc-link ez-toc-heading-6\" href=\"https:\/\/janusai.pro\/da\/in-depth-analysis-what-innovations-does-deepseeks-newly-released-janus-pro-have\/#Stage_II_%E2%80%93_Removing_ImageNet_data_and_adding_multi-modal_data\" >Fase II - Fjernelse af ImageNet-data og tilf\u00f8jelse af multimodale data<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-4'><a class=\"ez-toc-link ez-toc-heading-7\" href=\"https:\/\/janusai.pro\/da\/in-depth-analysis-what-innovations-does-deepseeks-newly-released-janus-pro-have\/#Stage_III_%E2%80%93_Optimizing_the_data_ratio\" >Fase III - Optimering af dataforholdet<\/a><\/li><\/ul><\/li><li class='ez-toc-page-1 ez-toc-heading-level-3'><a class=\"ez-toc-link ez-toc-heading-8\" href=\"https:\/\/janusai.pro\/da\/in-depth-analysis-what-innovations-does-deepseeks-newly-released-janus-pro-have\/#Lets_look_at_the_training_data\" >Lad os se p\u00e5 tr\u00e6ningsdataene.<\/a><ul class='ez-toc-list-level-4' ><li class='ez-toc-heading-level-4'><a class=\"ez-toc-link ez-toc-heading-9\" href=\"https:\/\/janusai.pro\/da\/in-depth-analysis-what-innovations-does-deepseeks-newly-released-janus-pro-have\/#Expansion_of_multimodal_understanding_data\" >Udvidelse af multimodale forst\u00e5elsesdata:<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-4'><a class=\"ez-toc-link ez-toc-heading-10\" href=\"https:\/\/janusai.pro\/da\/in-depth-analysis-what-innovations-does-deepseeks-newly-released-janus-pro-have\/#Expansion_of_visual_generation_data\" >Udvidelse af visuelle generationsdata:<\/a><\/li><\/ul><\/li><\/ul><\/li><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-11\" href=\"https:\/\/janusai.pro\/da\/in-depth-analysis-what-innovations-does-deepseeks-newly-released-janus-pro-have\/#The_continuation_of_an_efficiency_revolution\" >Forts\u00e6ttelsen af en effektivitetsrevolution?<\/a><\/li><\/ul><\/nav><\/div>\n<h2 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"It_is_intended_to_solve_the_industrys_difficult_problem_balancing_multimodal_understanding_and_image_generation\"><\/span><strong>Den skal l\u00f8se branchens sv\u00e6re problem: at balancere multimodal forst\u00e5else og billedgenerering.<\/strong><span class=\"ez-toc-section-end\"><\/span><\/h2>\n\n\n\n<p>If\u00f8lge den officielle introduktion af DeepSeek, <a href=\"https:\/\/huggingface.co\/deepseek-ai\/Janus-Pro-7B\" target=\"_blank\" rel=\"noreferrer noopener nofollow\">Janus-Pro <\/a>kan ikke kun forst\u00e5 billeder, uddrage og forst\u00e5 teksten i billederne, men ogs\u00e5 generere billeder p\u00e5 samme tid.<\/p>\n\n\n\n<p>Den tekniske rapport n\u00e6vner, at sammenlignet med andre modeller af samme type og st\u00f8rrelsesorden er Janus-Pro-7B's score p\u00e5 GenEval- og DPG-Bench-tests\u00e6ttene<strong> overstiger andre modeller som SD3-Medium og DALL-E 3.<\/strong><\/p>\n\n\n\n<figure class=\"wp-block-image\"><img loading=\"lazy\" decoding=\"async\" width=\"1080\" height=\"1067\" src=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/a30e3dd3-b95c-4745-a4f7-8c5ace36af17.png\" alt=\"\" class=\"wp-image-862\" srcset=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/a30e3dd3-b95c-4745-a4f7-8c5ace36af17.png 1080w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/a30e3dd3-b95c-4745-a4f7-8c5ace36af17-300x296.png 300w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/a30e3dd3-b95c-4745-a4f7-8c5ace36af17-1024x1012.png 1024w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/a30e3dd3-b95c-4745-a4f7-8c5ace36af17-768x759.png 768w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/a30e3dd3-b95c-4745-a4f7-8c5ace36af17-12x12.png 12w\" sizes=\"auto, (max-width: 1080px) 100vw, 1080px\" \/><\/figure>\n\n\n\n<p>Embedsmanden giver ogs\u00e5 eksempler \ud83d\udc47:<\/p>\n\n\n\n<figure class=\"wp-block-image\"><img loading=\"lazy\" decoding=\"async\" width=\"1080\" height=\"1295\" src=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/a063e5ec-bc07-4129-8ded-0ab90001bbfe.png\" alt=\"\" class=\"wp-image-866\" srcset=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/a063e5ec-bc07-4129-8ded-0ab90001bbfe.png 1080w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/a063e5ec-bc07-4129-8ded-0ab90001bbfe-250x300.png 250w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/a063e5ec-bc07-4129-8ded-0ab90001bbfe-854x1024.png 854w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/a063e5ec-bc07-4129-8ded-0ab90001bbfe-768x921.png 768w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/a063e5ec-bc07-4129-8ded-0ab90001bbfe-10x12.png 10w\" sizes=\"auto, (max-width: 1080px) 100vw, 1080px\" \/><\/figure>\n\n\n\n<p>Der er ogs\u00e5 mange netbrugere p\u00e5 X, der afpr\u00f8ver de nye funktioner.<\/p>\n\n\n\n<figure class=\"wp-block-image\"><img loading=\"lazy\" decoding=\"async\" width=\"1080\" height=\"1429\" src=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/c5235f43-349a-47a2-ae9f-dc5491d88d61.png\" alt=\"\" class=\"wp-image-867\" srcset=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/c5235f43-349a-47a2-ae9f-dc5491d88d61.png 1080w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/c5235f43-349a-47a2-ae9f-dc5491d88d61-227x300.png 227w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/c5235f43-349a-47a2-ae9f-dc5491d88d61-774x1024.png 774w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/c5235f43-349a-47a2-ae9f-dc5491d88d61-768x1016.png 768w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/c5235f43-349a-47a2-ae9f-dc5491d88d61-9x12.png 9w\" sizes=\"auto, (max-width: 1080px) 100vw, 1080px\" \/><\/figure>\n\n\n\n<figure class=\"wp-block-image\"><img loading=\"lazy\" decoding=\"async\" width=\"1080\" height=\"1616\" src=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/61c76adf-1b00-4b38-8504-a47410160d3b.png\" alt=\"\" class=\"wp-image-869\" srcset=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/61c76adf-1b00-4b38-8504-a47410160d3b.png 1080w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/61c76adf-1b00-4b38-8504-a47410160d3b-200x300.png 200w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/61c76adf-1b00-4b38-8504-a47410160d3b-684x1024.png 684w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/61c76adf-1b00-4b38-8504-a47410160d3b-768x1149.png 768w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/61c76adf-1b00-4b38-8504-a47410160d3b-1027x1536.png 1027w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/61c76adf-1b00-4b38-8504-a47410160d3b-8x12.png 8w\" sizes=\"auto, (max-width: 1080px) 100vw, 1080px\" \/><\/figure>\n\n\n\n<p>Men der er ogs\u00e5 lejlighedsvise nedbrud.<\/p>\n\n\n\n<p>Ved at konsultere de tekniske artikler p\u00e5 <a href=\"https:\/\/www.deepseek.com\/\" target=\"_blank\" rel=\"noreferrer noopener nofollow\">DeepSeek<\/a>fandt vi ud af, at Janus Pro er en optimering baseret p\u00e5 Janus, som blev udgivet for tre m\u00e5neder siden.<\/p>\n\n\n\n<p>Den centrale innovation i denne serie af modeller er at<strong> afkoble visuelle forst\u00e5elsesopgaver fra visuelle genereringsopgaver, s\u00e5 effekten af de to opgaver kan afbalanceres.<\/strong><\/p>\n\n\n\n<figure class=\"wp-block-image\"><img loading=\"lazy\" decoding=\"async\" width=\"1080\" height=\"538\" src=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/0fc71a9c-e23b-4ae9-976c-a4820124628e.png\" alt=\"\" class=\"wp-image-861\" srcset=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/0fc71a9c-e23b-4ae9-976c-a4820124628e.png 1080w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/0fc71a9c-e23b-4ae9-976c-a4820124628e-300x149.png 300w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/0fc71a9c-e23b-4ae9-976c-a4820124628e-1024x510.png 1024w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/0fc71a9c-e23b-4ae9-976c-a4820124628e-768x383.png 768w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/0fc71a9c-e23b-4ae9-976c-a4820124628e-18x9.png 18w\" sizes=\"auto, (max-width: 1080px) 100vw, 1080px\" \/><\/figure>\n\n\n\n<p>Det er ikke ualmindeligt, at en model kan udf\u00f8re multimodal forst\u00e5else og generering p\u00e5 samme tid. D-DiT og TokenFlow-XL i dette tests\u00e6t har begge denne evne.<\/p>\n\n\n\n<p>Men det, der er karakteristisk for Janus, er, at<strong> Ved at afkoble behandlingen afbalancerer en model, der kan udf\u00f8re multimodal forst\u00e5else og generering, effektiviteten af de to opgaver.<\/strong><\/p>\n\n\n\n<p><strong>At afbalancere effektiviteten af de to opgaver er et vanskeligt problem i branchen.<\/strong> Tidligere var tanken at bruge den samme koder til at implementere multimodal forst\u00e5else og generering s\u00e5 meget som muligt.<\/p>\n\n\n\n<p>Fordelene ved denne tilgang er en enkel arkitektur, ingen overfl\u00f8dig implementering og en tilpasning til tekstmodeller (som ogs\u00e5 bruger de samme metoder til at opn\u00e5 tekstgenerering og tekstforst\u00e5else). Et andet argument er, at denne sammensmeltning af flere evner kan f\u00f8re til en vis grad af emergens.<\/p>\n\n\n\n<p>Men faktisk vil de to opgaver komme i konflikt efter sammensmeltning af generering og forst\u00e5else - billedforst\u00e5else kr\u00e6ver, at modellen abstraherer i h\u00f8je dimensioner og udtr\u00e6kker billedets kernesemantik, som er forudindtaget mod det makroskopiske. Billedgenerering fokuserer p\u00e5 den anden side p\u00e5 at udtrykke og generere lokale detaljer p\u00e5 pixelniveau.<\/p>\n\n\n\n<p>Industriens s\u00e6dvanlige praksis er at prioritere billedgenereringsfunktioner. Det resulterer i multimodale modeller, der<strong> kan generere billeder af h\u00f8jere kvalitet, men resultaterne af billedforst\u00e5elsen er ofte middelm\u00e5dige.<\/strong><\/p>\n\n\n\n<h2 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Januss_decoupled_architecture_and_Janus-Pros_optimized_training_strategy\"><\/span><strong>Janus' afkoblede arkitektur og Janus-Pro's optimerede tr\u00e6ningsstrategi<\/strong><span class=\"ez-toc-section-end\"><\/span><\/h2>\n\n\n\n<p>Janus' afkoblede arkitektur g\u00f8r det muligt for modellen at afbalancere opgaverne med at forst\u00e5 og generere p\u00e5 egen h\u00e5nd.<\/p>\n\n\n\n<p>If\u00f8lge resultaterne i den officielle tekniske rapport klarer Janus-Pro-7B sig godt i flere tests\u00e6t, uanset om det drejer sig om multimodal forst\u00e5else eller billedgenerering.<\/p>\n\n\n\n<figure class=\"wp-block-image\"><img loading=\"lazy\" decoding=\"async\" width=\"1080\" height=\"976\" src=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/f280e5d6-7150-40d3-bf81-7e5e5b780129.png\" alt=\"\" class=\"wp-image-863\" srcset=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/f280e5d6-7150-40d3-bf81-7e5e5b780129.png 1080w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/f280e5d6-7150-40d3-bf81-7e5e5b780129-300x271.png 300w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/f280e5d6-7150-40d3-bf81-7e5e5b780129-1024x925.png 1024w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/f280e5d6-7150-40d3-bf81-7e5e5b780129-768x694.png 768w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/f280e5d6-7150-40d3-bf81-7e5e5b780129-13x12.png 13w\" sizes=\"auto, (max-width: 1080px) 100vw, 1080px\" \/><\/figure>\n\n\n\n<p><strong>For multimodal forst\u00e5else,<\/strong> Janus-Pro-7B opn\u00e5ede f\u00f8rstepladsen i fire af de syv evalueringsdatas\u00e6t og andenpladsen i de resterende tre, lidt efter den bedst placerede model.<\/p>\n\n\n\n<figure class=\"wp-block-image\"><img loading=\"lazy\" decoding=\"async\" width=\"1080\" height=\"1062\" src=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/782c767f-e8d3-4d5c-9e2d-638c102f7dff.png\" alt=\"\" class=\"wp-image-865\" srcset=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/782c767f-e8d3-4d5c-9e2d-638c102f7dff.png 1080w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/782c767f-e8d3-4d5c-9e2d-638c102f7dff-300x295.png 300w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/782c767f-e8d3-4d5c-9e2d-638c102f7dff-1024x1007.png 1024w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/782c767f-e8d3-4d5c-9e2d-638c102f7dff-768x755.png 768w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/782c767f-e8d3-4d5c-9e2d-638c102f7dff-12x12.png 12w\" sizes=\"auto, (max-width: 1080px) 100vw, 1080px\" \/><\/figure>\n\n\n\n<p><strong>Til billedgenerering,<\/strong> Janus-Pro-7B opn\u00e5ede f\u00f8rstepladsen i den samlede score p\u00e5 b\u00e5de GenEval- og DPG-Bench-evalueringsdatas\u00e6ttene.<\/p>\n\n\n\n<p>Denne multi-tasking-effekt skyldes hovedsageligt Janus-seriens brug af to visuelle koder til forskellige opgaver:<\/p>\n\n\n\n<ol start=\"1\" class=\"wp-block-list\">\n<li><strong>Forst\u00e5else af enkoder:<\/strong> bruges til at udtr\u00e6kke semantiske funktioner i billeder til billedforst\u00e5elsesopgaver (s\u00e5som billedsp\u00f8rgsm\u00e5l og -svar, visuel klassificering osv.).<\/li>\n\n\n\n<li><strong>Generativ koder:<\/strong> konverterer billeder til en diskret repr\u00e6sentation (f.eks. ved hj\u00e6lp af en VQ-koder) til tekst-til-billede-genereringsopgaver.<\/li>\n<\/ol>\n\n\n\n<p>Med denne arkitektur,<strong> Modellen kan uafh\u00e6ngigt optimere hver enkelt koders ydeevne, s\u00e5 multimodale forst\u00e5elses- og genereringsopgaver hver is\u00e6r kan opn\u00e5 deres bedste ydeevne.<\/strong><\/p>\n\n\n\n<figure class=\"wp-block-image\"><img loading=\"lazy\" decoding=\"async\" width=\"1080\" height=\"565\" src=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/81defdea-eadb-4fc7-8395-4c365c44d502.png\" alt=\"\" class=\"wp-image-860\" srcset=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/81defdea-eadb-4fc7-8395-4c365c44d502.png 1080w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/81defdea-eadb-4fc7-8395-4c365c44d502-300x157.png 300w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/81defdea-eadb-4fc7-8395-4c365c44d502-1024x536.png 1024w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/81defdea-eadb-4fc7-8395-4c365c44d502-768x402.png 768w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/81defdea-eadb-4fc7-8395-4c365c44d502-18x9.png 18w\" sizes=\"auto, (max-width: 1080px) 100vw, 1080px\" \/><\/figure>\n\n\n\n<p><strong>Denne afkoblede arkitektur er f\u00e6lles for Janus-Pro og Janus. S\u00e5 hvilke iterationer har Janus-Pro haft i de sidste par m\u00e5neder?<\/strong><\/p>\n\n\n\n<p>Som det fremg\u00e5r af resultaterne af evalueringss\u00e6ttet, har den nuv\u00e6rende udgave af Janus-Pro-1B en forbedring p\u00e5 ca. 10% til 20% i resultaterne af forskellige evalueringss\u00e6t sammenlignet med den tidligere Janus. Janus-Pro-7B har den h\u00f8jeste forbedring p\u00e5 ca. 45% sammenlignet med Janus efter udvidelse af antallet af parametre.<\/p>\n\n\n\n<figure class=\"wp-block-image\"><img loading=\"lazy\" decoding=\"async\" width=\"1080\" height=\"185\" src=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/746d1d6f-9a07-4922-9b59-717614ef0738.png\" alt=\"\" class=\"wp-image-858\" srcset=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/746d1d6f-9a07-4922-9b59-717614ef0738.png 1080w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/746d1d6f-9a07-4922-9b59-717614ef0738-300x51.png 300w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/746d1d6f-9a07-4922-9b59-717614ef0738-1024x175.png 1024w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/746d1d6f-9a07-4922-9b59-717614ef0738-768x132.png 768w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/746d1d6f-9a07-4922-9b59-717614ef0738-18x3.png 18w\" sizes=\"auto, (max-width: 1080px) 100vw, 1080px\" \/><\/figure>\n\n\n\n<figure class=\"wp-block-image\"><img loading=\"lazy\" decoding=\"async\" width=\"1080\" height=\"430\" src=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/9361ef86-87ce-4f84-9cdd-71ef95a9f4b1.png\" alt=\"\" class=\"wp-image-864\" srcset=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/9361ef86-87ce-4f84-9cdd-71ef95a9f4b1.png 1080w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/9361ef86-87ce-4f84-9cdd-71ef95a9f4b1-300x119.png 300w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/9361ef86-87ce-4f84-9cdd-71ef95a9f4b1-1024x408.png 1024w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/9361ef86-87ce-4f84-9cdd-71ef95a9f4b1-768x306.png 768w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/9361ef86-87ce-4f84-9cdd-71ef95a9f4b1-18x7.png 18w\" sizes=\"auto, (max-width: 1080px) 100vw, 1080px\" \/><\/figure>\n\n\n\n<p>Med hensyn til tr\u00e6ningsdetaljer hedder det i den tekniske rapport, at den nuv\u00e6rende udgave af Janus-Pro, sammenlignet med den tidligere Janus-model, bevarer det centrale afkoblede arkitekturdesign og derudover itererer p\u00e5<strong> parameterst\u00f8rrelse, tr\u00e6ningsstrategi og tr\u00e6ningsdata.<\/strong><\/p>\n\n\n\n<h3 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"First_lets_look_at_the_parameters\"><\/span><strong>Lad os f\u00f8rst se p\u00e5 parametrene<\/strong>.<span class=\"ez-toc-section-end\"><\/span><\/h3>\n\n\n\n<p>Den f\u00f8rste version af Janus havde kun 1,3B parametre, og den nuv\u00e6rende udgave af Pro indeholder modeller med 1B og 7B parametre.<\/p>\n\n\n\n<p>Disse to st\u00f8rrelser afspejler Janus-arkitekturens skalerbarhed. 1B-modellen, som er den letteste, er allerede blevet brugt af eksterne brugere til at k\u00f8re i browseren ved hj\u00e6lp af WebGPU.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"There_is_also_the_training_strategy\"><\/span><strong>Der er ogs\u00e5 <\/strong><strong>den<\/strong><strong> tr\u00e6ningsstrategi.<\/strong><span class=\"ez-toc-section-end\"><\/span><\/h3>\n\n\n\n<p>I tr\u00e5d med Janus' opdeling i tr\u00e6ningsfaser har Janus Pro i alt tre tr\u00e6ningsfaser, og artiklen opdeler dem direkte i fase I, fase II og fase III.<\/p>\n\n\n\n<p>Samtidig med at de grundl\u00e6ggende tr\u00e6ningsideer og tr\u00e6ningsm\u00e5l i hver fase er bevaret, har Janus-Pro forbedret tr\u00e6ningens varighed og tr\u00e6ningsdata i de tre faser. I det f\u00f8lgende beskrives de specifikke forbedringer i de tre faser:<\/p>\n\n\n\n<h4 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Stage_I_%E2%80%93_Longer_training_time\"><\/span><strong>Fase I - L\u00e6ngere tr\u00e6ningstid<\/strong><span class=\"ez-toc-section-end\"><\/span><\/h4>\n\n\n\n<p>Sammenlignet med Janus har Janus-Pro forl\u00e6nget tr\u00e6ningstiden i fase I, is\u00e6r i tr\u00e6ningen af adaptere og billedhoveder i den visuelle del. Det betyder, at indl\u00e6ringen af visuelle funktioner har f\u00e5et mere tr\u00e6ningstid, og det er h\u00e5bet, at modellen fuldt ud kan forst\u00e5 de detaljerede funktioner i billeder (s\u00e5som pixel-til-semantisk kortl\u00e6gning).<\/p>\n\n\n\n<p>Denne udvidede tr\u00e6ning er med til at sikre, at tr\u00e6ningen af den visuelle del ikke forstyrres af andre moduler.<\/p>\n\n\n\n<h4 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Stage_II_%E2%80%93_Removing_ImageNet_data_and_adding_multi-modal_data\"><\/span><strong>Fase II - Fjernelse af ImageNet-data og tilf\u00f8jelse af multimodale data<\/strong><span class=\"ez-toc-section-end\"><\/span><\/h4>\n\n\n\n<p>I fase II henviste Janus tidligere til PixArt og tr\u00e6nede i to dele. Den f\u00f8rste del blev tr\u00e6net ved hj\u00e6lp af ImageNet-datas\u00e6ttet til billedklassifikationsopgaven, og den anden del blev tr\u00e6net ved hj\u00e6lp af almindelige tekst-til-billede-data. Omkring to tredjedele af tiden i fase II blev brugt p\u00e5 at tr\u00e6ne i den f\u00f8rste del.<\/p>\n\n\n\n<p>Janus-Pro fjerner ImageNet-tr\u00e6ningen i fase II. Dette design g\u00f8r det muligt for modellen at fokusere p\u00e5 tekst-til-billed-data under Stage II-tr\u00e6ningen. If\u00f8lge eksperimentelle resultater kan dette forbedre udnyttelsen af tekst-til-billed-data betydeligt.<\/p>\n\n\n\n<p>Ud over justeringen af tr\u00e6ningsmetodens design er det tr\u00e6ningsdatas\u00e6t, der bruges i fase II, ikke l\u00e6ngere begr\u00e6nset til en enkelt billedklassificeringsopgave, men inkluderer ogs\u00e5 flere andre typer multimodale data, s\u00e5som billedbeskrivelse og dialog, til f\u00e6lles tr\u00e6ning.<\/p>\n\n\n\n<h4 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Stage_III_%E2%80%93_Optimizing_the_data_ratio\"><\/span><strong>Fase III - Optimering af dataforholdet<\/strong><span class=\"ez-toc-section-end\"><\/span><\/h4>\n\n\n\n<p>I fase III-tr\u00e6ning justerer Janus-Pro forholdet mellem forskellige typer tr\u00e6ningsdata.<\/p>\n\n\n\n<p>Tidligere var forholdet mellem multimodale forst\u00e5elsesdata, almindelige tekstdata og tekst-til-billed-data i de tr\u00e6ningsdata, der blev brugt af Janus i fase III, 7:3:10. Janus-Pro reducerer forholdet mellem de to sidstn\u00e6vnte typer data og justerer forholdet mellem de tre typer data til 5:1:4, det vil sige, at der l\u00e6gges mere v\u00e6gt p\u00e5 den multimodale forst\u00e5elsesopgave.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Lets_look_at_the_training_data\"><\/span><strong>Lad os se p\u00e5 tr\u00e6ningsdataene.<\/strong><span class=\"ez-toc-section-end\"><\/span><\/h3>\n\n\n\n<p>Sammenlignet med Janus \u00f8ger Janus-Pro denne gang markant m\u00e6ngden af h\u00f8jkvalitets<strong> syntetiske data.<\/strong><\/p>\n\n\n\n<p>Det udvider m\u00e6ngden og variationen af tr\u00e6ningsdata til multimodal forst\u00e5else og billedgenerering.<\/p>\n\n\n\n<h4 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Expansion_of_multimodal_understanding_data\"><\/span><strong>Udvidelse af multimodale forst\u00e5elsesdata:<\/strong><span class=\"ez-toc-section-end\"><\/span><\/h4>\n\n\n\n<p>Janus-Pro refererer til DeepSeek-VL2-datas\u00e6ttet under tr\u00e6ningen og tilf\u00f8jer omkring 90 millioner ekstra datapunkter, herunder ikke kun billedbeskrivelsesdatas\u00e6t, men ogs\u00e5 datas\u00e6t med komplekse scener som tabeller, diagrammer og dokumenter.<\/p>\n\n\n\n<p>Under den overv\u00e5gede finjusteringsfase (fase III) forts\u00e6tter den med at tilf\u00f8je datas\u00e6t relateret til MEME-forst\u00e5else og forbedring af dialog (herunder kinesisk dialog).<\/p>\n\n\n\n<h4 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Expansion_of_visual_generation_data\"><\/span><strong>Udvidelse af visuelle generationsdata:<\/strong><span class=\"ez-toc-section-end\"><\/span><\/h4>\n\n\n\n<p>De oprindelige data fra den virkelige verden havde d\u00e5rlig kvalitet og h\u00f8je st\u00f8jniveauer, hvilket fik modellen til at producere ustabile outputs og billeder af utilstr\u00e6kkelig \u00e6stetisk kvalitet i tekst-til-billede-opgaver.<\/p>\n\n\n\n<p>Janus-Pro tilf\u00f8jede ca. 72 millioner nye h\u00f8j\u00e6stetiske syntetiske data til tr\u00e6ningsfasen, hvilket bragte forholdet mellem rigtige data og syntetiske data i f\u00f8rtr\u00e6ningsfasen op p\u00e5 1:1.<\/p>\n\n\n\n<p>Prompterne til de syntetiske data blev alle taget fra offentlige ressourcer. Eksperimenter har vist, at tilf\u00f8jelsen af disse data f\u00e5r modellen til at konvergere hurtigere, og de genererede billeder har tydelige forbedringer i stabilitet og visuel sk\u00f8nhed.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"The_continuation_of_an_efficiency_revolution\"><\/span>Forts\u00e6ttelsen af en effektivitetsrevolution?<span class=\"ez-toc-section-end\"><\/span><\/h2>\n\n\n\n<p>Alt i alt har DeepSeek med denne udgivelse bragt effektivitetsrevolutionen til visuelle modeller.<\/p>\n\n\n\n<p>I mods\u00e6tning til visuelle modeller, der fokuserer p\u00e5 en enkelt funktion, eller multimodale modeller, der favoriserer en bestemt opgave, afbalancerer Janus-Pro virkningerne af de to hovedopgaver billedgenerering og multimodal forst\u00e5else i den samme model.<\/p>\n\n\n\n<p>P\u00e5 trods af sine sm\u00e5 parametre slog den desuden OpenAI DALL-E 3 og SD3-Medium i evalueringen.<\/p>\n\n\n\n<p>Udvidet til jorden beh\u00f8ver virksomheden kun at implementere en model for direkte at implementere de to funktioner til billedgenerering og -forst\u00e5else. Sammen med en st\u00f8rrelse p\u00e5 kun 7B er vanskelighederne og omkostningerne ved implementering meget lavere.<\/p>\n\n\n\n<p>I forbindelse med de tidligere udgivelser af R1 og V3 udfordrer DeepSeek de eksisterende spilleregler med<strong> \"kompakt arkitektonisk innovation, letv\u00e6gtsmodeller, open source-modeller og ekstremt lave uddannelsesomkostninger\"<\/strong>. Det er \u00e5rsagen til panikken blandt vestlige teknologigiganter og selv Wall Street.<\/p>\n\n\n\n<p>Lige nu har Sam Altman, som er blevet revet med af den offentlige mening i flere dage, endelig reageret positivt p\u00e5 oplysninger om DeepSeek p\u00e5 X - samtidig med at han roste R1, sagde han, at OpenAI vil komme med nogle meddelelser.<\/p>\n\n\n\n<figure class=\"wp-block-image\"><img loading=\"lazy\" decoding=\"async\" width=\"1051\" height=\"1280\" src=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/ade0e532-b451-4eff-832f-dcf20cff8f64.png\" alt=\"\" class=\"wp-image-868\" srcset=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/ade0e532-b451-4eff-832f-dcf20cff8f64.png 1051w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/ade0e532-b451-4eff-832f-dcf20cff8f64-246x300.png 246w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/ade0e532-b451-4eff-832f-dcf20cff8f64-841x1024.png 841w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/ade0e532-b451-4eff-832f-dcf20cff8f64-768x935.png 768w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/ade0e532-b451-4eff-832f-dcf20cff8f64-10x12.png 10w\" sizes=\"auto, (max-width: 1051px) 100vw, 1051px\" \/><\/figure>","protected":false},"excerpt":{"rendered":"<p>DeepSeek har opdateret sin hjemmeside. I de tidlige timer nyt\u00e5rsaften annoncerede DeepSeek pludselig p\u00e5 GitHub, at Janus-projektrummet havde \u00e5bnet kilden til Janus-Pro-modellen og den tekniske rapport. Lad os f\u00f8rst fremh\u00e6ve nogle f\u00e5 n\u00f8glepunkter: Den er beregnet til at l\u00f8se branchens vanskelige problem: at afbalancere multimodal forst\u00e5else og billedgenerering i henhold til...<\/p>","protected":false},"author":2,"featured_media":704,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_kadence_starter_templates_imported_post":false,"_kad_post_transparent":"","_kad_post_title":"","_kad_post_layout":"","_kad_post_sidebar_id":"","_kad_post_content_style":"","_kad_post_vertical_padding":"","_kad_post_feature":"","_kad_post_feature_position":"","_kad_post_header":false,"_kad_post_footer":false,"footnotes":""},"categories":[1],"tags":[],"class_list":["post-857","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-uncategorized"],"_links":{"self":[{"href":"https:\/\/janusai.pro\/da\/wp-json\/wp\/v2\/posts\/857","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/janusai.pro\/da\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/janusai.pro\/da\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/janusai.pro\/da\/wp-json\/wp\/v2\/users\/2"}],"replies":[{"embeddable":true,"href":"https:\/\/janusai.pro\/da\/wp-json\/wp\/v2\/comments?post=857"}],"version-history":[{"count":1,"href":"https:\/\/janusai.pro\/da\/wp-json\/wp\/v2\/posts\/857\/revisions"}],"predecessor-version":[{"id":870,"href":"https:\/\/janusai.pro\/da\/wp-json\/wp\/v2\/posts\/857\/revisions\/870"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/janusai.pro\/da\/wp-json\/wp\/v2\/media\/704"}],"wp:attachment":[{"href":"https:\/\/janusai.pro\/da\/wp-json\/wp\/v2\/media?parent=857"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/janusai.pro\/da\/wp-json\/wp\/v2\/categories?post=857"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/janusai.pro\/da\/wp-json\/wp\/v2\/tags?post=857"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}