{"id":746,"date":"2025-01-30T13:05:33","date_gmt":"2025-01-30T13:05:33","guid":{"rendered":"https:\/\/janusai.pro\/?p=746"},"modified":"2025-01-30T13:05:35","modified_gmt":"2025-01-30T13:05:35","slug":"the-complete-explanation-from-deepseek-janus-to-janus-pro","status":"publish","type":"post","link":"https:\/\/janusai.pro\/da\/the-complete-explanation-from-deepseek-janus-to-janus-pro\/","title":{"rendered":"Den komplette forklaring: fra DeepSeek Janus til Janus-Pro!"},"content":{"rendered":"<div style=\"margin-top: 0px; margin-bottom: 0px;\" class=\"sharethis-inline-share-buttons\" ><\/div>\n<p>Tag budskabet med hjem: Janus er en enkel, samlet og udvidelig multimodal forst\u00e5elses- og genereringsmodel, der afkobler multimodal forst\u00e5else og genereret visuel kodning, hvilket mindsker potentielle konflikter mellem de to opgaver. Den kan udvides til at omfatte flere inputmodaliteter i fremtiden. Janus-Pro bygger p\u00e5 dette fundament ved at optimere tr\u00e6ningsstrategien (herunder \u00f8ge antallet af tr\u00e6ningstrin, justere dataforholdene osv.), tilf\u00f8je flere data (herunder brug af syntetiske data osv.) og opskalere modelst\u00f8rrelsen (til 7 milliarder parametre), hvilket f\u00f8rer til fremskridt i modellens multimodale forst\u00e5elses- og tekst-til-billede-instruktionsoverholdelsesfunktioner.<\/p>\n\n\n\n<figure class=\"wp-block-image\"><img decoding=\"async\" src=\"https:\/\/rmy9ct2fln.feishu.cn\/space\/api\/box\/stream\/download\/asynccode\/?code=Mjg4MjEwYjVlNzk0YTgyMTc0NDJlODQ4MTU2ZmRjYTVfWnhaaVEyZlEwUHFrUHNUeGNCOWpCRU1EVDN0QktBMUxfVG9rZW46SkVQZmJmSEhqb1g4YTJ4MVNYdmNPT2oybmVmXzE3MzgyNDIwMzc6MTczODI0NTYzN19WNA\" alt=\"\"\/><\/figure>\n\n\n\n<p><a href=\"https:\/\/github.com\/deepseek-ai\/JanusJanus\" target=\"_blank\" rel=\"noreferrer noopener nofollow\">Kodeadresse<\/a><\/p>\n\n\n\n<p><a href=\"https:\/\/github.com\/deepseek-ai\/Janus\/blob\/main\/janus_pro_tech_report.pdf\" target=\"_blank\" rel=\"noreferrer noopener nofollow\">Janus Pro-adresse<\/a><\/p>\n\n\n\n<p><a href=\"https:\/\/huggingface.co\/deepseek-ai\/Janus-Pro-7B\" target=\"_blank\" rel=\"noreferrer noopener nofollow\">Janus-Pro<\/a> er en avanceret version af det tidligere arbejde Janus, som specifikt omfatter (1) en optimeret tr\u00e6ningsstrategi, (2) udvidede tr\u00e6ningsdata og (3) st\u00f8rre modelst\u00f8rrelser. Med disse forbedringer g\u00f8r Janus-Pro betydelige fremskridt inden for multimodal forst\u00e5else og overholdelse af tekst-til-billede-instruktioner, samtidig med at den forbedrer stabiliteten af tekst-til-billede-generering. Lad os gennemg\u00e5 Janus, f\u00f8r vi pakker Janus-Pro ud.<\/p>\n\n\n\n<div id=\"ez-toc-container\" class=\"ez-toc-v2_0_82_2 counter-hierarchy ez-toc-counter ez-toc-grey ez-toc-container-direction\">\n<div class=\"ez-toc-title-container\">\n<p class=\"ez-toc-title\" style=\"cursor:inherit\">Indholdsfortegnelse<\/p>\n<span class=\"ez-toc-title-toggle\"><a href=\"#\" class=\"ez-toc-pull-right ez-toc-btn ez-toc-btn-xs ez-toc-btn-default ez-toc-toggle\" aria-label=\"Skift til indholdsfortegnelse\"><span class=\"ez-toc-js-icon-con\"><span class=\"\"><span class=\"eztoc-hide\" style=\"display:none;\">Toggle<\/span><span class=\"ez-toc-icon-toggle-span\"><svg style=\"fill: #999;color:#999\" xmlns=\"http:\/\/www.w3.org\/2000\/svg\" class=\"list-377408\" width=\"20px\" height=\"20px\" viewbox=\"0 0 24 24\" fill=\"none\"><path d=\"M6 6H4v2h2V6zm14 0H8v2h12V6zM4 11h2v2H4v-2zm16 0H8v2h12v-2zM4 16h2v2H4v-2zm16 0H8v2h12v-2z\" fill=\"currentColor\"><\/path><\/svg><svg style=\"fill: #999;color:#999\" class=\"arrow-unsorted-368013\" xmlns=\"http:\/\/www.w3.org\/2000\/svg\" width=\"10px\" height=\"10px\" viewbox=\"0 0 24 24\" version=\"1.2\" baseprofile=\"tiny\"><path d=\"M18.2 9.3l-6.2-6.3-6.2 6.3c-.2.2-.3.4-.3.7s.1.5.3.7c.2.2.4.3.7.3h11c.3 0 .5-.1.7-.3.2-.2.3-.5.3-.7s-.1-.5-.3-.7zM5.8 14.7l6.2 6.3 6.2-6.3c.2-.2.3-.5.3-.7s-.1-.5-.3-.7c-.2-.2-.4-.3-.7-.3h-11c-.3 0-.5.1-.7.3-.2.2-.3.5-.3.7s.1.5.3.7z\"\/><\/svg><\/span><\/span><\/span><\/a><\/span><\/div>\n<nav><ul class='ez-toc-list ez-toc-list-level-1' ><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-1\" href=\"https:\/\/janusai.pro\/da\/the-complete-explanation-from-deepseek-janus-to-janus-pro\/#Reviewing_Janus\" >Gennemgang af Janus<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-2\" href=\"https:\/\/janusai.pro\/da\/the-complete-explanation-from-deepseek-janus-to-janus-pro\/#Janus_training_is_divided_into_3_phases\" >Janus-tr\u00e6ningen er inddelt i 3 faser:<\/a><ul class='ez-toc-list-level-3' ><li class='ez-toc-heading-level-3'><a class=\"ez-toc-link ez-toc-heading-3\" href=\"https:\/\/janusai.pro\/da\/the-complete-explanation-from-deepseek-janus-to-janus-pro\/#Phase_1\" >Fase 1<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-3'><a class=\"ez-toc-link ez-toc-heading-4\" href=\"https:\/\/janusai.pro\/da\/the-complete-explanation-from-deepseek-janus-to-janus-pro\/#Phase_2\" >Fase 2<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-3'><a class=\"ez-toc-link ez-toc-heading-5\" href=\"https:\/\/janusai.pro\/da\/the-complete-explanation-from-deepseek-janus-to-janus-pro\/#Phase_3\" >Fase 3<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-3'><a class=\"ez-toc-link ez-toc-heading-6\" href=\"https:\/\/janusai.pro\/da\/the-complete-explanation-from-deepseek-janus-to-janus-pro\/#Training_Objectives\" >M\u00e5l for uddannelse<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-3'><a class=\"ez-toc-link ez-toc-heading-7\" href=\"https:\/\/janusai.pro\/da\/the-complete-explanation-from-deepseek-janus-to-janus-pro\/#Reasoning\" >R\u00e6sonnement<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-3'><a class=\"ez-toc-link ez-toc-heading-8\" href=\"https:\/\/janusai.pro\/da\/the-complete-explanation-from-deepseek-janus-to-janus-pro\/#Possible_extensions\" >Mulige udvidelser<\/a><\/li><\/ul><\/li><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-9\" href=\"https:\/\/janusai.pro\/da\/the-complete-explanation-from-deepseek-janus-to-janus-pro\/#Janus-Pro_Upgrade\" >Janus-Pro-opgradering<\/a><ul class='ez-toc-list-level-3' ><li class='ez-toc-heading-level-3'><a class=\"ez-toc-link ez-toc-heading-10\" href=\"https:\/\/janusai.pro\/da\/the-complete-explanation-from-deepseek-janus-to-janus-pro\/#Main_Improvements\" >Vigtigste forbedringer<\/a><ul class='ez-toc-list-level-4' ><li class='ez-toc-heading-level-4'><a class=\"ez-toc-link ez-toc-heading-11\" href=\"https:\/\/janusai.pro\/da\/the-complete-explanation-from-deepseek-janus-to-janus-pro\/#Training_Strategy\" >Tr\u00e6ningsstrategi<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-4'><a class=\"ez-toc-link ez-toc-heading-12\" href=\"https:\/\/janusai.pro\/da\/the-complete-explanation-from-deepseek-janus-to-janus-pro\/#Data_Scale\" >Data-skala<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-4'><a class=\"ez-toc-link ez-toc-heading-13\" href=\"https:\/\/janusai.pro\/da\/the-complete-explanation-from-deepseek-janus-to-janus-pro\/#Model_Scale\" >Modelskala<\/a><\/li><\/ul><\/li><li class='ez-toc-page-1 ez-toc-heading-level-3'><a class=\"ez-toc-link ez-toc-heading-14\" href=\"https:\/\/janusai.pro\/da\/the-complete-explanation-from-deepseek-janus-to-janus-pro\/#Experimental_details\" >Eksperimentelle detaljer<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-3'><a class=\"ez-toc-link ez-toc-heading-15\" href=\"https:\/\/janusai.pro\/da\/the-complete-explanation-from-deepseek-janus-to-janus-pro\/#Insufficient\" >Utilstr\u00e6kkelig<\/a><\/li><\/ul><\/li><\/ul><\/nav><\/div>\n<h2 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Reviewing_Janus\"><\/span>Gennemgang af Janus<span class=\"ez-toc-section-end\"><\/span><\/h2>\n\n\n\n<p>Forg\u00e6ngeren Janus er en autoregressiv ramme for forenet multimodal forst\u00e5else og generering, som bruges til at afkoble visuel kodning til forenet multimodal forst\u00e5else og generering. Til multimodal forst\u00e5else f\u00f8lger designet typisk LLaVA og bruger visuelle kodere som en bro, der g\u00f8r det muligt for store sprogmodeller at forst\u00e5 billeder. Til generering er det normalt baseret p\u00e5 diffusionsmodeller, og nogle er baseret p\u00e5 autoregressive metoder. Nogle tilgange fors\u00f8ger at bruge en enkelt Transformer til at forene de multimodale forst\u00e5elses- og genereringsopgaver, som typisk bruger en enkelt visuel koder til at behandle inputtet fra begge opgaver.<\/p>\n\n\n\n<p>Der er dog forskelle i de repr\u00e6sentationer, der kr\u00e6ves til multimodale forst\u00e5elses- og genereringsopgaver. I den multimodale forst\u00e5elsesopgave sigter den visuelle koder mod at udtr\u00e6kke semantiske oplysninger p\u00e5 h\u00f8jt niveau (f.eks. objektkategorier eller visuelle attributter), og output involverer ikke kun udtr\u00e6kning af oplysninger fra billedet, men ogs\u00e5 komplekse semantiske r\u00e6sonnementer, hvor koderen prim\u00e6rt fokuserer p\u00e5 h\u00f8jdimensionelle semantiske repr\u00e6sentationer. Generationsopgaven handler prim\u00e6rt om at generere lokale detaljer og opretholde global konsistens i billedet, hvilket kr\u00e6ver lavdimensionelle kodede repr\u00e6sentationer af rumlige strukturer og teksturdetaljer. At forene repr\u00e6sentationerne af begge opgaver i det samme rum kan f\u00f8re til konflikter.<\/p>\n\n\n\n<p>Janus indeholder 2 uafh\u00e6ngige visuelle kodningsstier til multimodal forst\u00e5else og generering og giver to fordele: 1) mindsker konflikter, der stammer fra de forskellige granularitetskrav til multimodal forst\u00e5else og generering, og 2) er fleksibel og skalerbar, idet den afkobles, s\u00e5 b\u00e5de forst\u00e5elses- og genereringsopgaverne kan kodes ved hj\u00e6lp af avancerede kodningsteknikker, der er specifikke for deres dom\u00e6ner, og i fremtiden kan fodres med punktskyer, EEG-signaler eller lyddata og behandles ved hj\u00e6lp af en samlet I fremtiden kan punktskyer, EEG-signaler eller lyddata indl\u00e6ses og behandles ved hj\u00e6lp af en samlet Transformer.<\/p>\n\n\n\n<figure class=\"wp-block-image\"><img decoding=\"async\" src=\"https:\/\/rmy9ct2fln.feishu.cn\/space\/api\/box\/stream\/download\/asynccode\/?code=OTE3ZjkyNWQ5MmUwNDQzM2VjN2VlNWYwZjAxYTVmZGRfMXpJMWVObDBKOHYxTVJqeEw2S0pHT2hGU3RuVHdnWVdfVG9rZW46UDQyQ2Jrb0Myb1h0bjR4TFBrV2NRS29GbkRmXzE3MzgyNDIwMzc6MTczODI0NTYzN19WNA\" alt=\"\"\/><\/figure>\n\n\n\n<p>Til tekstforst\u00e5else konverteres tekst til diskrete ID'er ved hj\u00e6lp af LLM's indbyggede Tokenizer;<\/p>\n\n\n\n<p>Til multimodal forst\u00e5else udvindes h\u00f8jdimensionelle semantiske funktioner i billederne ved hj\u00e6lp af SigLIP-kodere (forfatterens note: Cosmos bruger ogs\u00e5 SigLIP-kodere i afsnittet Guardrails), og de udvundne funktioner kortl\u00e6gges i LLM's tekstfunktionsrum ved hj\u00e6lp af Adaptor (2-lags MLP);<\/p>\n\n\n\n<p>Den lange side blev justeret til 384 pixels, og den korte side blev udfyldt til 384 pixels ved hj\u00e6lp af RGB(127, 127, 127);<\/p>\n\n\n\n<p>Til visuel generering blev billedet konverteret til diskrete ID'er ved hj\u00e6lp af VQ Tokenizer, og hvert ID blev kortlagt i det tekstuelle funktionsrum i LLM ved hj\u00e6lp af Adaptor (2-lags MLP);<\/p>\n\n\n\n<p>Korte kanter blev \u00e6ndret til 384 pixels, og lange kanter blev besk\u00e5ret til 384 pixels;<\/p>\n\n\n\n<p>Den samlede tr\u00e6ning blev udf\u00f8rt ved hj\u00e6lp af 16 noder, der hver indeholdt 8 Nvidia A100 GPU'er;<\/p>\n\n\n\n<p>For b\u00e5de visuel generering og multimodale forst\u00e5elsesopgaver er billedfunktionssekvenserne og tekstfunktionssekvenserne knyttet sammen som input til LLM (DeepSeek-LLM 1.3B bruges i teksten);<\/p>\n\n\n\n<blockquote class=\"wp-block-quote is-layout-flow wp-block-quote-is-layout-flow\">\n<p>Det indbyggede forudsigelseshoved i LLM bruges til tekstforudsigelser i b\u00e5de den rene tekstforst\u00e5else og multimodale forst\u00e5elsesopgaver, mens et tilf\u00e6ldigt initialiseret forudsigelseshoved bruges til billedforudsigelser i den visuelle genereringsopgave. Hele modellen f\u00f8lger en autoregressiv ramme uden behov for specialdesignede opm\u00e6rksomhedsmasker.<\/p>\n<\/blockquote>\n\n\n\n<h2 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Janus_training_is_divided_into_3_phases\"><\/span><a href=\"https:\/\/huggingface.co\/deepseek-ai\/Janus-Pro-7B\" target=\"_blank\" rel=\"noreferrer noopener nofollow\">Janus-tr\u00e6ning<\/a> er opdelt i 3 faser:<span class=\"ez-toc-section-end\"><\/span><\/h2>\n\n\n\n<h3 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Phase_1\"><\/span>Fase 1<span class=\"ez-toc-section-end\"><\/span><\/h3>\n\n\n\n<p><strong>Togadapter og billedhoved<\/strong> at skabe forbindelser mellem sproglige og visuelle elementer i indlejringsrummet, s\u00e5 LLM kan forst\u00e5 enheder i billedet og have indledende visuelle genereringsfunktioner;<\/p>\n\n\n\n<p>For multimodal forst\u00e5else skal du bruge 1,25 millioner parrede billedtekstdata fra SHareGPT4V i formatet: ;<\/p>\n\n\n\n<p>Til visuel generering ved hj\u00e6lp af 1,2 millioner pr\u00f8ver fra ImageNet1k i formatet: ;<\/p>\n\n\n\n<h3 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Phase_2\"><\/span>Fase 2<span class=\"ez-toc-section-end\"><\/span><\/h3>\n\n\n\n<p><strong>F\u00e6lles fortr\u00e6ning<\/strong>Vi bruger et multimodalt korpus til forenet pr\u00e6tr\u00e6ning for at l\u00e6re multimodal forst\u00e5else og generering. Almindelige tekstdata, multimodale forst\u00e5elsesdata og visuelle genereringsdata bruges i denne fase. Simpel visuel genereringstr\u00e6ning ved hj\u00e6lp af ImageNet-1k, efterfulgt af brugen af generiske tekst-til-billed-data for at forbedre den visuelle generering i modellens \u00e5bne dom\u00e6ne;<\/p>\n\n\n\n<p>Almindelige tekstdata: DeepSeek-LLM pr\u00e6tr\u00e6net korpus;<\/p>\n\n\n\n<p>Sammenflettede billede-tekst-data: WikiHow- og WIT-datas\u00e6t;<\/p>\n\n\n\n<p>Billedtekstdata: Billeder fra flere kilder og omskrevet nogle af billederne ved hj\u00e6lp af open source multimodale modeller, med data formateret som Q&amp;A-par, f.eks. Beskriv billedet i detaljer.<caption>;<\/p>\n\n\n\n<p>Tabel- og grafikdata: tilsvarende tabel- og grafikdata fra DeepSeek-VL i formatet ;<\/p>\n\n\n\n<p>Visuelt genererede data: billedtekstpar fra flere datas\u00e6t og 2 millioner interne data;<\/p>\n\n\n\n<p>Under tr\u00e6ningen er det kun den f\u00f8rste s\u00e6tning i billedteksten, der bruges tilf\u00e6ldigt med en sandsynlighed p\u00e5 25%;<\/p>\n\n\n\n<p>ImageNet-pr\u00f8ver vises kun i de f\u00f8rste 120K tr\u00e6ningstrin, mens billeder fra andre datas\u00e6t vises i de efterf\u00f8lgende 60K trin;<\/p>\n\n\n\n<h3 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Phase_3\"><\/span>Fase 3<span class=\"ez-toc-section-end\"><\/span><\/h3>\n\n\n\n<p><strong>Overv\u00e5get finjustering<\/strong>, hvor pr\u00e6tr\u00e6nede modeller finjusteres ved hj\u00e6lp af data om finjustering af instruktioner for at forbedre deres evne til at f\u00f8lge instruktioner og dialog. Finjuster alle parametre undtagen den genererende koder. Maskering af system- og brugersignaler, mens svarene overv\u00e5ges. For at sikre, at Janus er dygtig til b\u00e5de multimodal forst\u00e5else og generering, finjusteres modellerne ikke separat til specifikke opgaver. I stedet bruger vi en blanding af rene tekstdialogdata, multimodale forst\u00e5elsesdata og visuelle genereringsdata for at sikre alsidighed i en r\u00e6kke forskellige scenarier;<\/p>\n\n\n\n<p>Tekstforst\u00e5else: bruger data fra specifikke kilder;<\/p>\n\n\n\n<p>Multimodal forst\u00e5else: Brug af data fra flere kilder til at tilpasse undervisningen;<\/p>\n\n\n\n<p>Visuel generering: ved hj\u00e6lp af en delm\u00e6ngde af billede-tekst-par fra nogle af fase II-datas\u00e6ttene samt 4 millioner interne data;<\/p>\n\n\n\n<p>Dataformatet er: Bruger: \\n Assistent: ;<\/p>\n\n\n\n<figure class=\"wp-block-image\"><img decoding=\"async\" src=\"https:\/\/rmy9ct2fln.feishu.cn\/space\/api\/box\/stream\/download\/asynccode\/?code=M2I3MWQ5MjQyNTM5NjIyZTkyMjdlODgwMDg5NzIwYzJfSGVTUnVzb0I3bEREQXBkMEJGN0lqT0JBaEVUWEQwS05fVG9rZW46Vm9OMWJzYnNsbzRGR1R4YlJrNWNad1psblhjXzE3MzgyNDIwMzc6MTczODI0NTYzN19WNA\" alt=\"\"\/><\/figure>\n\n\n\n<h3 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Training_Objectives\"><\/span>M\u00e5l for uddannelse<span class=\"ez-toc-section-end\"><\/span><\/h3>\n\n\n\n<p>Janus er en autoregressiv model, der er tr\u00e6net ved hj\u00e6lp af en cross-entropy tabsfunktion, for almindelig tekstforst\u00e5else og multimodale forst\u00e5elsesopgaver beregnes tabet p\u00e5 tekstsekvensen. Til visuelle genereringsopgaver beregnes tabet kun p\u00e5 billedsekvensen. For at holde designet enkelt tildeles der ikke forskellige tabsv\u00e6gte til de forskellige opgaver.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Reasoning\"><\/span>R\u00e6sonnement<span class=\"ez-toc-section-end\"><\/span><\/h3>\n\n\n\n<p>Ved hj\u00e6lp af den n\u00e6ste metode til forudsigelse af leksikalske elementer, til forst\u00e5else af almindelig tekst og multimodal forst\u00e5else, udv\u00e6lges leksikalske elementer sekventielt fra forudsigelsesfordelingen. Til billedgenerering bruges en klassifikationsl\u00f8s bootstrap.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Possible_extensions\"><\/span>Mulige udvidelser<span class=\"ez-toc-section-end\"><\/span><\/h3>\n\n\n\n<p>Til multimodal forst\u00e5else kunne man 1) v\u00e6lge en st\u00e6rkere visuel koder, og 2) bruge dynamiske teknikker med h\u00f8j opl\u00f8sning;<\/p>\n\n\n\n<p>Til visionsgenerering kan man 1) v\u00e6lge mere finkornede kodere, 2) bruge tabsfunktioner, der er specielt designet til visionsgenerering, og 3) kombinere kausal opm\u00e6rksomhed og parallelle metoder;<\/p>\n\n\n\n<p>Flere modaliteter med mulighed for at integrere 3D-punktskyer, haptik, EEG og andre input til tabsmodaliteter;<\/p>\n\n\n\n<h2 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Janus-Pro_Upgrade\"><\/span><a href=\"https:\/\/huggingface.co\/deepseek-ai\/Janus-Pro-7B\" target=\"_blank\" rel=\"noreferrer noopener nofollow\">Janus-Pro-opgradering<\/a><span class=\"ez-toc-section-end\"><\/span><\/h2>\n\n\n\n<p>Med begr\u00e6nsede tr\u00e6ningsdata og relativt lille modelkapacitet (1B) er Janus mangelfuld i nogle aspekter, s\u00e5som d\u00e5rlig repr\u00e6sentation af billedgenerering under korte signaler og inkonsekvent kvalitet af tekst-til-billede-generering. Janus-Pro's arkitektur er den samme som Janus', hvilket kan ses i figuren nedenfor:<\/p>\n\n\n\n<figure class=\"wp-block-image\"><img decoding=\"async\" src=\"https:\/\/rmy9ct2fln.feishu.cn\/space\/api\/box\/stream\/download\/asynccode\/?code=NDY0ZWM0NTJiOTNlYTE4MWI4NmMwNGE4Mjc3NmYyMDJfc1FEMHVOMHo1OUM0ZVhoakJtU1lZQXdZNTd4NVFXRzhfVG9rZW46RjJrTGI3VVlqb0IxS3N4aHVVN2NxUWxJbnZkXzE3MzgyNDIwMzc6MTczODI0NTYzN19WNA\" alt=\"\"\/><\/figure>\n\n\n\n<h3 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Main_Improvements\"><\/span>Vigtigste forbedringer<span class=\"ez-toc-section-end\"><\/span><\/h3>\n\n\n\n<h4 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Training_Strategy\"><\/span>Tr\u00e6ningsstrategi<span class=\"ez-toc-section-end\"><\/span><\/h4>\n\n\n\n<p>Trin 1: \u00d8g antallet af tr\u00e6ningstrin, og tr\u00e6n fuldt ud p\u00e5 ImageNet;<\/p>\n\n\n\n<p>Fase 2: Brug ikke l\u00e6ngere ImageNet, brug direkte almindelige tekst-til-billed-data til tr\u00e6ning;<\/p>\n\n\n\n<p>Trin 3: \u00c6ndre datas\u00e6tforholdene i finjusteringsprocessen ved at \u00e6ndre forholdet mellem multimodale data, almindelige tekstdata og tekst-til-billed-data fra 7:3:10 til 5:1:4;<\/p>\n\n\n\n<h4 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Data_Scale\"><\/span>Data-skala<span class=\"ez-toc-section-end\"><\/span><\/h4>\n\n\n\n<p>Multimodal forst\u00e5else<\/p>\n\n\n\n<p>Fase 2: Tilf\u00f8j 90 millioner eksempler, herunder YFCC til billedtekstning og Doc-matrix til forst\u00e5else af tabel- og diagramdokumenter;<\/p>\n\n\n\n<p>Trin 3: Tilf\u00f8j DeepSeek-VL2 yderligere datas\u00e6t s\u00e5som MEME-forst\u00e5else;<\/p>\n\n\n\n<p>Visuel generering: Data fra den virkelige verden kan v\u00e6re af d\u00e5rlig kvalitet, hvilket resulterer i ustabil tekst-til-billede-generering og d\u00e5rligt \u00e6stetisk output. Janus-Pro bruger 72 millioner eksempler p\u00e5 syntetiske \u00e6stetiske data med en ensartet pr\u00e6tr\u00e6ningsfase (fase 2) med et forhold p\u00e5 1:1 mellem reelle og syntetiske data;<\/p>\n\n\n\n<h4 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Model_Scale\"><\/span>Modelskala<span class=\"ez-toc-section-end\"><\/span><\/h4>\n\n\n\n<p>Skaler modelparametre til 7 milliarder parameterskala;<\/p>\n\n\n\n<h3 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Experimental_details\"><\/span>Eksperimentelle detaljer<span class=\"ez-toc-section-end\"><\/span><\/h3>\n\n\n\n<p>Sammenlignet med Janus er detaljerne i Janus-Pro-eksperimenterne stort set de samme. I mods\u00e6tning hertil brugte modellen med st\u00f8rre parametre flere klyngenoder (16 til 32).<\/p>\n\n\n\n<figure class=\"wp-block-image\"><img decoding=\"async\" src=\"https:\/\/rmy9ct2fln.feishu.cn\/space\/api\/box\/stream\/download\/asynccode\/?code=NDM1YTM1ZDliNDUwYzAzNzg4MTNiNjUzYWZlZjVhZjhfZGI5ZWloREhYV29OZUxiaEVFc0dhN1dMTDhGdG5ZSnNfVG9rZW46STA0amJtbVlhb0NySk94NkRKNmNqNDVybmdiXzE3MzgyNDIwMzc6MTczODI0NTYzN19WNA\" alt=\"\"\/><\/figure>\n\n\n\n<p>Janus-Pro tr\u00e6ningshyperparametre<\/p>\n\n\n\n<h3 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Insufficient\"><\/span>Utilstr\u00e6kkelig<span class=\"ez-toc-section-end\"><\/span><\/h3>\n\n\n\n<p>Til multimodal forst\u00e5else er inputopl\u00f8sningen begr\u00e6nset til 384\u00d7384, hvilket p\u00e5virker ydeevnen p\u00e5 finkornede visuelle opgaver. Til tekst-til-billede-generering resulterer den lave opl\u00f8sning i en mangel p\u00e5 detaljer i de genererede resultater.<\/p>","protected":false},"excerpt":{"rendered":"<p>Tag budskabet med hjem: Janus er en enkel, samlet og udvidelig multimodal forst\u00e5elses- og genereringsmodel, der afkobler multimodal forst\u00e5else og genereret visuel kodning, hvilket mindsker potentielle konflikter mellem de to opgaver. Den kan udvides til at omfatte flere inputmodaliteter i fremtiden. Janus-Pro bygger p\u00e5 dette fundament ved at optimere tr\u00e6ningsstrategien (herunder at \u00f8ge...<\/p>","protected":false},"author":2,"featured_media":684,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_kadence_starter_templates_imported_post":false,"_kad_post_transparent":"","_kad_post_title":"","_kad_post_layout":"","_kad_post_sidebar_id":"","_kad_post_content_style":"","_kad_post_vertical_padding":"","_kad_post_feature":"","_kad_post_feature_position":"","_kad_post_header":false,"_kad_post_footer":false,"footnotes":""},"categories":[1],"tags":[],"class_list":["post-746","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-uncategorized"],"_links":{"self":[{"href":"https:\/\/janusai.pro\/da\/wp-json\/wp\/v2\/posts\/746","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/janusai.pro\/da\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/janusai.pro\/da\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/janusai.pro\/da\/wp-json\/wp\/v2\/users\/2"}],"replies":[{"embeddable":true,"href":"https:\/\/janusai.pro\/da\/wp-json\/wp\/v2\/comments?post=746"}],"version-history":[{"count":1,"href":"https:\/\/janusai.pro\/da\/wp-json\/wp\/v2\/posts\/746\/revisions"}],"predecessor-version":[{"id":747,"href":"https:\/\/janusai.pro\/da\/wp-json\/wp\/v2\/posts\/746\/revisions\/747"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/janusai.pro\/da\/wp-json\/wp\/v2\/media\/684"}],"wp:attachment":[{"href":"https:\/\/janusai.pro\/da\/wp-json\/wp\/v2\/media?parent=746"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/janusai.pro\/da\/wp-json\/wp\/v2\/categories?post=746"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/janusai.pro\/da\/wp-json\/wp\/v2\/tags?post=746"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}