{"id":746,"date":"2025-01-30T13:05:33","date_gmt":"2025-01-30T13:05:33","guid":{"rendered":"https:\/\/janusai.pro\/?p=746"},"modified":"2025-01-30T13:05:35","modified_gmt":"2025-01-30T13:05:35","slug":"the-complete-explanation-from-deepseek-janus-to-janus-pro","status":"publish","type":"post","link":"https:\/\/janusai.pro\/sv\/the-complete-explanation-from-deepseek-janus-to-janus-pro\/","title":{"rendered":"Den fullst\u00e4ndiga f\u00f6rklaringen: fr\u00e5n DeepSeek Janus till Janus-Pro!"},"content":{"rendered":"<div style=\"margin-top: 0px; margin-bottom: 0px;\" class=\"sharethis-inline-share-buttons\" ><\/div>\n<p>Ta med dig meddelandet hem: Janus \u00e4r en enkel, enhetlig och utbyggbar multimodal f\u00f6rst\u00e5else- och genereringsmodell som frikopplar multimodal f\u00f6rst\u00e5else och genererad visuell kodning, vilket mildrar potentiella konflikter mellan de tv\u00e5 uppgifterna. Den kan utvidgas till att omfatta ytterligare modaliteter f\u00f6r inmatning i framtiden. Janus-Pro bygger vidare p\u00e5 denna grund genom att optimera tr\u00e4ningsstrategin (inklusive att \u00f6ka antalet tr\u00e4ningssteg, justera datakvoterna etc.), l\u00e4gga till mer data (inklusive anv\u00e4ndning av syntetiska data etc.) och skala upp modellstorleken (till 7 miljarder parametrar), vilket leder till framsteg i modellens multimodala f\u00f6rst\u00e5else och f\u00f6rm\u00e5ga att f\u00f6lja text-till-bild-instruktioner.<\/p>\n\n\n\n<figure class=\"wp-block-image\"><img decoding=\"async\" src=\"https:\/\/rmy9ct2fln.feishu.cn\/space\/api\/box\/stream\/download\/asynccode\/?code=Mjg4MjEwYjVlNzk0YTgyMTc0NDJlODQ4MTU2ZmRjYTVfWnhaaVEyZlEwUHFrUHNUeGNCOWpCRU1EVDN0QktBMUxfVG9rZW46SkVQZmJmSEhqb1g4YTJ4MVNYdmNPT2oybmVmXzE3MzgyNDIwMzc6MTczODI0NTYzN19WNA\" alt=\"\"\/><\/figure>\n\n\n\n<p><a href=\"https:\/\/github.com\/deepseek-ai\/JanusJanus\" target=\"_blank\" rel=\"noreferrer noopener nofollow\">Kod adress<\/a><\/p>\n\n\n\n<p><a href=\"https:\/\/github.com\/deepseek-ai\/Janus\/blob\/main\/janus_pro_tech_report.pdf\" target=\"_blank\" rel=\"noreferrer noopener nofollow\">Janus Pro-adress<\/a><\/p>\n\n\n\n<p><a href=\"https:\/\/huggingface.co\/deepseek-ai\/Janus-Pro-7B\" target=\"_blank\" rel=\"noreferrer noopener nofollow\">Janus-Pro<\/a> \u00e4r en avancerad version av tidigare arbete Janus, specifikt, inklusive (1) en optimerad tr\u00e4ningsstrategi, (2) ut\u00f6kade tr\u00e4ningsdata och (3) st\u00f6rre modellstorlekar. Med dessa f\u00f6rb\u00e4ttringar g\u00f6r Janus-Pro betydande framsteg inom multimodal f\u00f6rst\u00e5else och f\u00f6rm\u00e5ga att f\u00f6lja text-till-bild-instruktioner, samtidigt som stabiliteten i text-till-bild-generering f\u00f6rb\u00e4ttras. Innan vi packar upp Janus-Pro, l\u00e5t oss granska Janus.<\/p>\n\n\n\n<div id=\"ez-toc-container\" class=\"ez-toc-v2_0_82_2 counter-hierarchy ez-toc-counter ez-toc-grey ez-toc-container-direction\">\n<div class=\"ez-toc-title-container\">\n<p class=\"ez-toc-title\" style=\"cursor:inherit\">Inneh\u00e5llsf\u00f6rteckning<\/p>\n<span class=\"ez-toc-title-toggle\"><a href=\"#\" class=\"ez-toc-pull-right ez-toc-btn ez-toc-btn-xs ez-toc-btn-default ez-toc-toggle\" aria-label=\"V\u00e4xla inneh\u00e5llsf\u00f6rteckning\"><span class=\"ez-toc-js-icon-con\"><span class=\"\"><span class=\"eztoc-hide\" style=\"display:none;\">Toggle<\/span><span class=\"ez-toc-icon-toggle-span\"><svg style=\"fill: #999;color:#999\" xmlns=\"http:\/\/www.w3.org\/2000\/svg\" class=\"list-377408\" width=\"20px\" height=\"20px\" viewbox=\"0 0 24 24\" fill=\"none\"><path d=\"M6 6H4v2h2V6zm14 0H8v2h12V6zM4 11h2v2H4v-2zm16 0H8v2h12v-2zM4 16h2v2H4v-2zm16 0H8v2h12v-2z\" fill=\"currentColor\"><\/path><\/svg><svg style=\"fill: #999;color:#999\" class=\"arrow-unsorted-368013\" xmlns=\"http:\/\/www.w3.org\/2000\/svg\" width=\"10px\" height=\"10px\" viewbox=\"0 0 24 24\" version=\"1.2\" baseprofile=\"tiny\"><path d=\"M18.2 9.3l-6.2-6.3-6.2 6.3c-.2.2-.3.4-.3.7s.1.5.3.7c.2.2.4.3.7.3h11c.3 0 .5-.1.7-.3.2-.2.3-.5.3-.7s-.1-.5-.3-.7zM5.8 14.7l6.2 6.3 6.2-6.3c.2-.2.3-.5.3-.7s-.1-.5-.3-.7c-.2-.2-.4-.3-.7-.3h-11c-.3 0-.5.1-.7.3-.2.2-.3.5-.3.7s.1.5.3.7z\"\/><\/svg><\/span><\/span><\/span><\/a><\/span><\/div>\n<nav><ul class='ez-toc-list ez-toc-list-level-1' ><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-1\" href=\"https:\/\/janusai.pro\/sv\/the-complete-explanation-from-deepseek-janus-to-janus-pro\/#Reviewing_Janus\" >Granskning av Janus<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-2\" href=\"https:\/\/janusai.pro\/sv\/the-complete-explanation-from-deepseek-janus-to-janus-pro\/#Janus_training_is_divided_into_3_phases\" >Janus utbildning \u00e4r indelad i 3 faser:<\/a><ul class='ez-toc-list-level-3' ><li class='ez-toc-heading-level-3'><a class=\"ez-toc-link ez-toc-heading-3\" href=\"https:\/\/janusai.pro\/sv\/the-complete-explanation-from-deepseek-janus-to-janus-pro\/#Phase_1\" >Fas 1<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-3'><a class=\"ez-toc-link ez-toc-heading-4\" href=\"https:\/\/janusai.pro\/sv\/the-complete-explanation-from-deepseek-janus-to-janus-pro\/#Phase_2\" >Fas 2<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-3'><a class=\"ez-toc-link ez-toc-heading-5\" href=\"https:\/\/janusai.pro\/sv\/the-complete-explanation-from-deepseek-janus-to-janus-pro\/#Phase_3\" >Fas 3<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-3'><a class=\"ez-toc-link ez-toc-heading-6\" href=\"https:\/\/janusai.pro\/sv\/the-complete-explanation-from-deepseek-janus-to-janus-pro\/#Training_Objectives\" >M\u00e5l f\u00f6r utbildningen<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-3'><a class=\"ez-toc-link ez-toc-heading-7\" href=\"https:\/\/janusai.pro\/sv\/the-complete-explanation-from-deepseek-janus-to-janus-pro\/#Reasoning\" >Resonemang<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-3'><a class=\"ez-toc-link ez-toc-heading-8\" href=\"https:\/\/janusai.pro\/sv\/the-complete-explanation-from-deepseek-janus-to-janus-pro\/#Possible_extensions\" >M\u00f6jliga f\u00f6rl\u00e4ngningar<\/a><\/li><\/ul><\/li><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-9\" href=\"https:\/\/janusai.pro\/sv\/the-complete-explanation-from-deepseek-janus-to-janus-pro\/#Janus-Pro_Upgrade\" >Janus-Pro Uppgradering<\/a><ul class='ez-toc-list-level-3' ><li class='ez-toc-heading-level-3'><a class=\"ez-toc-link ez-toc-heading-10\" href=\"https:\/\/janusai.pro\/sv\/the-complete-explanation-from-deepseek-janus-to-janus-pro\/#Main_Improvements\" >Huvudf\u00f6rb\u00e4ttringar<\/a><ul class='ez-toc-list-level-4' ><li class='ez-toc-heading-level-4'><a class=\"ez-toc-link ez-toc-heading-11\" href=\"https:\/\/janusai.pro\/sv\/the-complete-explanation-from-deepseek-janus-to-janus-pro\/#Training_Strategy\" >Strategi f\u00f6r utbildning<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-4'><a class=\"ez-toc-link ez-toc-heading-12\" href=\"https:\/\/janusai.pro\/sv\/the-complete-explanation-from-deepseek-janus-to-janus-pro\/#Data_Scale\" >Data skala<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-4'><a class=\"ez-toc-link ez-toc-heading-13\" href=\"https:\/\/janusai.pro\/sv\/the-complete-explanation-from-deepseek-janus-to-janus-pro\/#Model_Scale\" >Modellskala<\/a><\/li><\/ul><\/li><li class='ez-toc-page-1 ez-toc-heading-level-3'><a class=\"ez-toc-link ez-toc-heading-14\" href=\"https:\/\/janusai.pro\/sv\/the-complete-explanation-from-deepseek-janus-to-janus-pro\/#Experimental_details\" >Experimentella detaljer<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-3'><a class=\"ez-toc-link ez-toc-heading-15\" href=\"https:\/\/janusai.pro\/sv\/the-complete-explanation-from-deepseek-janus-to-janus-pro\/#Insufficient\" >Otillr\u00e4cklig<\/a><\/li><\/ul><\/li><\/ul><\/nav><\/div>\n<h2 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Reviewing_Janus\"><\/span>Granskning av Janus<span class=\"ez-toc-section-end\"><\/span><\/h2>\n\n\n\n<p>F\u00f6reg\u00e5ngaren Janus \u00e4r ett autoregressivt ramverk f\u00f6r enhetlig multimodal f\u00f6rst\u00e5else och generering, som anv\u00e4nds f\u00f6r att frikoppla visuell kodning f\u00f6r enhetlig multimodal f\u00f6rst\u00e5else och generering. F\u00f6r multimodal f\u00f6rst\u00e5else f\u00f6ljer designen vanligtvis LLaVA, d\u00e4r visuella kodare anv\u00e4nds som en bro f\u00f6r att g\u00f6ra det m\u00f6jligt f\u00f6r stora spr\u00e5kmodeller att f\u00f6rst\u00e5 bilder. F\u00f6r generering baseras den vanligtvis p\u00e5 diffusionsmodeller, och vissa baseras p\u00e5 autoregressiva metoder. Vissa metoder f\u00f6rs\u00f6ker anv\u00e4nda en enda Transformer f\u00f6r att f\u00f6rs\u00f6ka f\u00f6rena multimodal f\u00f6rst\u00e5else och generering, vilket vanligtvis anv\u00e4nder en enda visuell kodare f\u00f6r att bearbeta indata fr\u00e5n b\u00e5da uppgifterna.<\/p>\n\n\n\n<p>Det finns dock skillnader i de representationer som kr\u00e4vs f\u00f6r multimodala f\u00f6rst\u00e5else- och genereringsuppgifter. I uppgiften multimodal f\u00f6rst\u00e5else syftar den visuella kodaren till att extrahera semantisk information p\u00e5 h\u00f6g niv\u00e5 (t.ex. objektkategorier eller visuella attribut), och resultatet inneb\u00e4r inte bara att extrahera information fr\u00e5n bilden utan ocks\u00e5 komplexa semantiska resonemang, d\u00e4r kodaren fr\u00e4mst fokuserar p\u00e5 h\u00f6gdimensionella semantiska representationer. Genereringsuppgiften handlar fr\u00e4mst om att generera lokala detaljer och uppr\u00e4tth\u00e5lla global konsistens i bilden, vilket kr\u00e4ver l\u00e5gdimensionella kodade representationer av rumsliga strukturer och texturdetaljer. Att f\u00f6rena representationerna f\u00f6r b\u00e5da uppgifterna i samma utrymme kan leda till konflikter.<\/p>\n\n\n\n<p>Janus inneh\u00e5ller tv\u00e5 oberoende visuella kodningsv\u00e4gar f\u00f6r multimodal f\u00f6rst\u00e5else och generering, och ger tv\u00e5 f\u00f6rdelar: 1) minskar konflikter som h\u00e4rr\u00f6r fr\u00e5n de olika granularitetskraven f\u00f6r multimodal f\u00f6rst\u00e5else och generering, och 2) \u00e4r flexibel och skalbar, frikopplad s\u00e5 att b\u00e5de f\u00f6rst\u00e5elsen och genereringsuppgifterna kan kodas med hj\u00e4lp av toppmoderna kodningstekniker som \u00e4r specifika f\u00f6r deras dom\u00e4ner, och i framtiden kan matas med punktmoln, EEG-signaler eller ljuddata och bearbetas med hj\u00e4lp av en enhetlig I framtiden kan punktmoln, EEG-signaler eller ljuddata matas in och bearbetas med hj\u00e4lp av en enhetlig Transformer.<\/p>\n\n\n\n<figure class=\"wp-block-image\"><img decoding=\"async\" src=\"https:\/\/rmy9ct2fln.feishu.cn\/space\/api\/box\/stream\/download\/asynccode\/?code=OTE3ZjkyNWQ5MmUwNDQzM2VjN2VlNWYwZjAxYTVmZGRfMXpJMWVObDBKOHYxTVJqeEw2S0pHT2hGU3RuVHdnWVdfVG9rZW46UDQyQ2Jrb0Myb1h0bjR4TFBrV2NRS29GbkRmXzE3MzgyNDIwMzc6MTczODI0NTYzN19WNA\" alt=\"\"\/><\/figure>\n\n\n\n<p>F\u00f6r textf\u00f6rst\u00e5else konverteras text till diskreta ID:n med hj\u00e4lp av LLM:s inbyggda Tokenizer;<\/p>\n\n\n\n<p>F\u00f6r multimodal f\u00f6rst\u00e5else extraheras h\u00f6gdimensionella semantiska funktioner i bilderna med hj\u00e4lp av SigLIP-kodare (f\u00f6rfattarens anm\u00e4rkning: Cosmos anv\u00e4nder ocks\u00e5 SigLIP-kodare i avsnittet Guardrails), och de extraherade funktionerna mappas till LLM:s textfunktionsutrymme med hj\u00e4lp av Adaptor (2-lagers MLP);<\/p>\n\n\n\n<p>Den l\u00e5nga sidan justerades till 384 pixlar och den korta sidan fylldes till 384 pixlar med RGB(127, 127, 127);<\/p>\n\n\n\n<p>F\u00f6r visuell generering konverterades bilden till diskreta ID:n med hj\u00e4lp av VQ Tokenizer, och varje ID mappades in i LLM:s textuella funktionsutrymme med hj\u00e4lp av Adaptor (2-lagers MLP);<\/p>\n\n\n\n<p>Korta kanter har skalats om till 384 pixlar och l\u00e5nga kanter har beskurits till 384 pixlar;<\/p>\n\n\n\n<p>Den totala tr\u00e4ningen utf\u00f6rdes med hj\u00e4lp av 16 noder, var och en inneh\u00e5llande 8 Nvidia A100 GPU:er;<\/p>\n\n\n\n<p>F\u00f6r b\u00e5de visuell generering och multimodal f\u00f6rst\u00e5else l\u00e4nkas sekvenserna med bildfunktioner och sekvenserna med textfunktioner samman som indata till LLM (DeepSeek-LLM 1.3B anv\u00e4nds i texten);<\/p>\n\n\n\n<blockquote class=\"wp-block-quote is-layout-flow wp-block-quote-is-layout-flow\">\n<p>Det inbyggda prediktionshuvudet i LLM anv\u00e4nds f\u00f6r textprediktioner i b\u00e5de ren textf\u00f6rst\u00e5else och multimodal f\u00f6rst\u00e5else, medan ett slumpm\u00e4ssigt initialiserat prediktionshuvud anv\u00e4nds f\u00f6r bildprediktioner i den visuella genereringsuppgiften. Hela modellen f\u00f6ljer ett autoregressivt ramverk utan behov av specialdesignade uppm\u00e4rksamhetsmasker.<\/p>\n<\/blockquote>\n\n\n\n<h2 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Janus_training_is_divided_into_3_phases\"><\/span><a href=\"https:\/\/huggingface.co\/deepseek-ai\/Janus-Pro-7B\" target=\"_blank\" rel=\"noreferrer noopener nofollow\">Janus utbildning<\/a> \u00e4r indelad i 3 faser:<span class=\"ez-toc-section-end\"><\/span><\/h2>\n\n\n\n<h3 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Phase_1\"><\/span>Fas 1<span class=\"ez-toc-section-end\"><\/span><\/h3>\n\n\n\n<p><strong>T\u00e5gadapter och bildhuvud<\/strong> f\u00f6r att skapa kopplingar mellan spr\u00e5kliga och visuella element i inb\u00e4ddningsrymden, s\u00e5 att LLM kan f\u00f6rst\u00e5 enheter i bilden och ha inledande visuell genereringskapacitet;<\/p>\n\n\n\n<p>F\u00f6r multimodal f\u00f6rst\u00e5else, anv\u00e4nd 1,25 miljoner bild-text-parade bildtextdata fr\u00e5n SHareGPT4V i formatet: ;<\/p>\n\n\n\n<p>F\u00f6r visuell generering anv\u00e4nds 1,2 miljoner prov fr\u00e5n ImageNet1k i formatet: ;<\/p>\n\n\n\n<h3 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Phase_2\"><\/span>Fas 2<span class=\"ez-toc-section-end\"><\/span><\/h3>\n\n\n\n<p><strong>Enhetlig f\u00f6rutbildning<\/strong>, med hj\u00e4lp av en multimodal korpus f\u00f6r enhetlig f\u00f6rtr\u00e4ning f\u00f6r att l\u00e4ra sig multimodal f\u00f6rst\u00e5else och generering. I den h\u00e4r fasen anv\u00e4nds data f\u00f6r vanlig text, multimodal f\u00f6rst\u00e5else och visuell generering. Enkel tr\u00e4ning av visuell generering med ImageNet-1k, f\u00f6ljt av anv\u00e4ndning av generiska text-till-bild-data f\u00f6r att f\u00f6rb\u00e4ttra den visuella genereringen i modellens \u00f6ppna dom\u00e4n;<\/p>\n\n\n\n<p>Data i vanlig text: DeepSeek-LLM f\u00f6rutbildad korpus;<\/p>\n\n\n\n<p>Interleaved bild-textdata: WikiHow- och WIT-dataset;<\/p>\n\n\n\n<p>Data f\u00f6r bildtexter: Bilder fr\u00e5n flera k\u00e4llor och ny bildtextning f\u00f6r vissa av bilderna med hj\u00e4lp av multimodala modeller med \u00f6ppen k\u00e4llkod, med data formaterade som Q&amp;A-par, t.ex. Beskriv bilden i detalj.<caption>;<\/p>\n\n\n\n<p>Tabell- och grafiska data: motsvarande tabell- och grafiska data fr\u00e5n DeepSeek-VL i formatet ;<\/p>\n\n\n\n<p>Visuellt genererade data: bild-bildtextpar fr\u00e5n flera dataset och 2 miljoner interna data;<\/p>\n\n\n\n<p>Under tr\u00e4ningen anv\u00e4nds endast den f\u00f6rsta meningen i bildtexten slumpm\u00e4ssigt med en sannolikhet p\u00e5 25%;<\/p>\n\n\n\n<p>ImageNet-prover visas endast i de f\u00f6rsta 120 000 tr\u00e4ningsstegen, medan bilder fr\u00e5n andra dataset visas i de f\u00f6ljande 60 000 stegen;<\/p>\n\n\n\n<h3 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Phase_3\"><\/span>Fas 3<span class=\"ez-toc-section-end\"><\/span><\/h3>\n\n\n\n<p><strong>\u00d6vervakad finjustering<\/strong>, d\u00e4r f\u00f6rtr\u00e4nade modeller finjusteras med hj\u00e4lp av data f\u00f6r finjustering av instruktioner f\u00f6r att f\u00f6rb\u00e4ttra deras f\u00f6rm\u00e5ga att f\u00f6lja instruktioner och dialog. Finjustera alla parametrar utom den genererande kodaren. Maskning av system- och anv\u00e4ndarsignaler under \u00f6vervakning av svar. F\u00f6r att s\u00e4kerst\u00e4lla att Janus beh\u00e4rskar b\u00e5de multimodal f\u00f6rst\u00e5else och generering finjusteras inte modellerna separat f\u00f6r specifika uppgifter. Ist\u00e4llet anv\u00e4nder vi en blandning av dialogdata med enbart text, multimodala f\u00f6rst\u00e5elsedata och visuella genereringsdata f\u00f6r att s\u00e4kerst\u00e4lla m\u00e5ngsidighet i en m\u00e4ngd olika scenarier;<\/p>\n\n\n\n<p>Textf\u00f6rst\u00e5else: anv\u00e4nder data fr\u00e5n specifika k\u00e4llor;<\/p>\n\n\n\n<p>Multimodal f\u00f6rst\u00e5else: att anv\u00e4nda data fr\u00e5n flera k\u00e4llor f\u00f6r att anpassa undervisningen;<\/p>\n\n\n\n<p>Visuell generering: med hj\u00e4lp av en delm\u00e4ngd av bild-textpar fr\u00e5n n\u00e5gra av fas II-dataseten samt 4 miljoner interna data;<\/p>\n\n\n\n<p>Dataformatet \u00e4r: Anv\u00e4ndare: \\n Assistent: ;<\/p>\n\n\n\n<figure class=\"wp-block-image\"><img decoding=\"async\" src=\"https:\/\/rmy9ct2fln.feishu.cn\/space\/api\/box\/stream\/download\/asynccode\/?code=M2I3MWQ5MjQyNTM5NjIyZTkyMjdlODgwMDg5NzIwYzJfSGVTUnVzb0I3bEREQXBkMEJGN0lqT0JBaEVUWEQwS05fVG9rZW46Vm9OMWJzYnNsbzRGR1R4YlJrNWNad1psblhjXzE3MzgyNDIwMzc6MTczODI0NTYzN19WNA\" alt=\"\"\/><\/figure>\n\n\n\n<h3 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Training_Objectives\"><\/span>M\u00e5l f\u00f6r utbildningen<span class=\"ez-toc-section-end\"><\/span><\/h3>\n\n\n\n<p>Janus \u00e4r en autoregressiv modell som tr\u00e4nas med hj\u00e4lp av en cross-entropy-f\u00f6rlustfunktion, f\u00f6r f\u00f6rst\u00e5else av vanlig text och multimodala f\u00f6rst\u00e5elseuppgifter ber\u00e4knas f\u00f6rlusten p\u00e5 textsekvensen. F\u00f6r visuella genereringsuppgifter ber\u00e4knas f\u00f6rlusten endast p\u00e5 bildsekvensen. F\u00f6r att h\u00e5lla designen enkel tilldelas inga olika f\u00f6rlustvikter till de olika uppgifterna.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Reasoning\"><\/span>Resonemang<span class=\"ez-toc-section-end\"><\/span><\/h3>\n\n\n\n<p>Med hj\u00e4lp av prediktionsmetoden f\u00f6r n\u00e4sta lexikala element, f\u00f6r f\u00f6rst\u00e5else av vanlig text och multimodal f\u00f6rst\u00e5else, samplas lexikala element sekventiellt fr\u00e5n prediktionsf\u00f6rdelningen. F\u00f6r bildgenerering anv\u00e4nds en klassificeringsfri bootstrap.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Possible_extensions\"><\/span>M\u00f6jliga f\u00f6rl\u00e4ngningar<span class=\"ez-toc-section-end\"><\/span><\/h3>\n\n\n\n<p>F\u00f6r multimodal f\u00f6rst\u00e5else kan 1) en starkare visuell kodare v\u00e4ljas och 2) dynamiska tekniker med h\u00f6g uppl\u00f6sning anv\u00e4ndas;<\/p>\n\n\n\n<p>F\u00f6r visionsgenerering kan man 1) v\u00e4lja mer finkorniga kodare, 2) anv\u00e4nda f\u00f6rlustfunktioner som \u00e4r s\u00e4rskilt utformade f\u00f6r visionsgenerering och 3) kombinera kausal uppm\u00e4rksamhet och parallella metoder;<\/p>\n\n\n\n<p>Fler modaliteter, med m\u00f6jlighet att integrera 3D-punktmoln, haptik, EEG och andra ing\u00e5ngar f\u00f6r f\u00f6rlustmodaliteter;<\/p>\n\n\n\n<h2 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Janus-Pro_Upgrade\"><\/span><a href=\"https:\/\/huggingface.co\/deepseek-ai\/Janus-Pro-7B\" target=\"_blank\" rel=\"noreferrer noopener nofollow\">Janus-Pro Uppgradering<\/a><span class=\"ez-toc-section-end\"><\/span><\/h2>\n\n\n\n<p>Med begr\u00e4nsad utbildningsdata och relativt liten modellkapacitet (1B) \u00e4r Janus bristf\u00e4llig i vissa aspekter, till exempel d\u00e5lig representation av bildgenerering under korta ledtr\u00e5dar och inkonsekvent kvalitet p\u00e5 text-till-bild-generering. Janus-Pro-arkitekturen \u00e4r densamma som Janus, vilket framg\u00e5r av figuren nedan:<\/p>\n\n\n\n<figure class=\"wp-block-image\"><img decoding=\"async\" src=\"https:\/\/rmy9ct2fln.feishu.cn\/space\/api\/box\/stream\/download\/asynccode\/?code=NDY0ZWM0NTJiOTNlYTE4MWI4NmMwNGE4Mjc3NmYyMDJfc1FEMHVOMHo1OUM0ZVhoakJtU1lZQXdZNTd4NVFXRzhfVG9rZW46RjJrTGI3VVlqb0IxS3N4aHVVN2NxUWxJbnZkXzE3MzgyNDIwMzc6MTczODI0NTYzN19WNA\" alt=\"\"\/><\/figure>\n\n\n\n<h3 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Main_Improvements\"><\/span>Huvudf\u00f6rb\u00e4ttringar<span class=\"ez-toc-section-end\"><\/span><\/h3>\n\n\n\n<h4 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Training_Strategy\"><\/span>Strategi f\u00f6r utbildning<span class=\"ez-toc-section-end\"><\/span><\/h4>\n\n\n\n<p>Steg 1: \u00d6ka antalet tr\u00e4ningssteg och tr\u00e4na fullt ut p\u00e5 ImageNet;<\/p>\n\n\n\n<p>Steg 2: Anv\u00e4nd inte l\u00e4ngre ImageNet, utan anv\u00e4nd direkt vanlig text-till-bild-data f\u00f6r utbildning;<\/p>\n\n\n\n<p>Steg 3: \u00c4ndra f\u00f6rh\u00e5llandena f\u00f6r datasetet i finjusteringsprocessen genom att \u00e4ndra f\u00f6rh\u00e5llandet mellan multimodala data, ren textdata och text-till-bild-data fr\u00e5n 7:3:10 till 5:1:4;<\/p>\n\n\n\n<h4 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Data_Scale\"><\/span>Data skala<span class=\"ez-toc-section-end\"><\/span><\/h4>\n\n\n\n<p>Multimodal f\u00f6rst\u00e5else<\/p>\n\n\n\n<p>Steg 2: L\u00e4gg till 90 miljoner exempel, inklusive YFCC f\u00f6r bildtextning och Doc-matrix f\u00f6r f\u00f6rst\u00e5else av tabell- och diagramdokument;<\/p>\n\n\n\n<p>Steg 3: L\u00e4gg till DeepSeek-VL2 ytterligare dataset s\u00e5som MEME-f\u00f6rst\u00e5else;<\/p>\n\n\n\n<p>Visuell generering: verkliga data kan inneh\u00e5lla d\u00e5lig kvalitet, vilket resulterar i instabil text-till-bild-generering och d\u00e5lig estetisk produktion, Janus-Pro anv\u00e4nder 72 miljoner prover av syntetiska estetiska data, med en enhetlig f\u00f6rtr\u00e4ningsfas (steg 2) med 1:1-f\u00f6rh\u00e5llande mellan verkliga data och syntetiska data;<\/p>\n\n\n\n<h4 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Model_Scale\"><\/span>Modellskala<span class=\"ez-toc-section-end\"><\/span><\/h4>\n\n\n\n<p>Skala modellparametrar till 7 miljarder parameterskala;<\/p>\n\n\n\n<h3 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Experimental_details\"><\/span>Experimentella detaljer<span class=\"ez-toc-section-end\"><\/span><\/h3>\n\n\n\n<p>J\u00e4mf\u00f6rt med Janus \u00e4r detaljerna i Janus-Pro-experimenten i princip desamma. D\u00e4remot anv\u00e4nde modellen med st\u00f6rre parametrar fler klusternoder (16 till 32).<\/p>\n\n\n\n<figure class=\"wp-block-image\"><img decoding=\"async\" src=\"https:\/\/rmy9ct2fln.feishu.cn\/space\/api\/box\/stream\/download\/asynccode\/?code=NDM1YTM1ZDliNDUwYzAzNzg4MTNiNjUzYWZlZjVhZjhfZGI5ZWloREhYV29OZUxiaEVFc0dhN1dMTDhGdG5ZSnNfVG9rZW46STA0amJtbVlhb0NySk94NkRKNmNqNDVybmdiXzE3MzgyNDIwMzc6MTczODI0NTYzN19WNA\" alt=\"\"\/><\/figure>\n\n\n\n<p>Janus-Pro hyperparametrar f\u00f6r utbildning<\/p>\n\n\n\n<h3 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Insufficient\"><\/span>Otillr\u00e4cklig<span class=\"ez-toc-section-end\"><\/span><\/h3>\n\n\n\n<p>F\u00f6r multimodal f\u00f6rst\u00e5else \u00e4r inmatningsuppl\u00f6sningen begr\u00e4nsad till 384\u00d7384, vilket p\u00e5verkar prestandan f\u00f6r finkorniga visuella uppgifter. F\u00f6r text-till-bild-generering resulterar den l\u00e5ga uppl\u00f6sningen i en brist p\u00e5 detaljer i de genererade resultaten.<\/p>","protected":false},"excerpt":{"rendered":"<p>Ta med dig meddelandet hem: Janus \u00e4r en enkel, enhetlig och utbyggbar modell f\u00f6r multimodal f\u00f6rst\u00e5else och generering som frikopplar multimodal f\u00f6rst\u00e5else och genererad visuell kodning, vilket mildrar potentiella konflikter mellan de tv\u00e5 uppgifterna. Den kan utvidgas till att omfatta ytterligare modaliteter f\u00f6r inmatning i framtiden. Janus-Pro bygger vidare p\u00e5 denna grund genom att optimera tr\u00e4ningsstrategin (inklusive att \u00f6ka...<\/p>","protected":false},"author":2,"featured_media":684,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_kadence_starter_templates_imported_post":false,"_kad_post_transparent":"","_kad_post_title":"","_kad_post_layout":"","_kad_post_sidebar_id":"","_kad_post_content_style":"","_kad_post_vertical_padding":"","_kad_post_feature":"","_kad_post_feature_position":"","_kad_post_header":false,"_kad_post_footer":false,"footnotes":""},"categories":[1],"tags":[],"class_list":["post-746","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-uncategorized"],"_links":{"self":[{"href":"https:\/\/janusai.pro\/sv\/wp-json\/wp\/v2\/posts\/746","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/janusai.pro\/sv\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/janusai.pro\/sv\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/janusai.pro\/sv\/wp-json\/wp\/v2\/users\/2"}],"replies":[{"embeddable":true,"href":"https:\/\/janusai.pro\/sv\/wp-json\/wp\/v2\/comments?post=746"}],"version-history":[{"count":1,"href":"https:\/\/janusai.pro\/sv\/wp-json\/wp\/v2\/posts\/746\/revisions"}],"predecessor-version":[{"id":747,"href":"https:\/\/janusai.pro\/sv\/wp-json\/wp\/v2\/posts\/746\/revisions\/747"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/janusai.pro\/sv\/wp-json\/wp\/v2\/media\/684"}],"wp:attachment":[{"href":"https:\/\/janusai.pro\/sv\/wp-json\/wp\/v2\/media?parent=746"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/janusai.pro\/sv\/wp-json\/wp\/v2\/categories?post=746"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/janusai.pro\/sv\/wp-json\/wp\/v2\/tags?post=746"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}