{"id":847,"date":"2025-02-04T16:27:27","date_gmt":"2025-02-04T16:27:27","guid":{"rendered":"https:\/\/janusai.pro\/?p=847"},"modified":"2025-02-04T16:27:28","modified_gmt":"2025-02-04T16:27:28","slug":"how-good-is-deepseeks-janus-pro","status":"publish","type":"post","link":"https:\/\/janusai.pro\/pl\/how-good-is-deepseeks-janus-pro\/","title":{"rendered":"Jak dobry jest DeepSeek Janus-Pro?"},"content":{"rendered":"<div style=\"margin-top: 0px; margin-bottom: 0px;\" class=\"sharethis-inline-share-buttons\" ><\/div>\n<p>W przeddzie\u0144 Festiwalu Wiosny zosta\u0142 wydany model DeepSeek-R1. Dzi\u0119ki czystej architekturze RL czerpie on wiedz\u0119 z wielkich innowacji CoT i osi\u0105ga lepsze wyniki ni\u017c inne modele. <a href=\"https:\/\/openai.com\/\" target=\"_blank\" rel=\"noreferrer noopener nofollow\">ChatGPT<\/a> w matematyce, kodowaniu i logicznym rozumowaniu.<\/p>\n\n\n\n<p>Ponadto, jego wagi modeli open-source, niskie koszty szkolenia i niskie ceny API sprawi\u0142y, \u017ce DeepSeek sta\u0142 si\u0119 hitem w Internecie, powoduj\u0105c nawet gwa\u0142towny spadek cen akcji NVIDIA i ASML.<\/p>\n\n\n\n<p>Podczas gdy popularno\u015b\u0107 DeepSeek eksplodowa\u0142a, DeepSeek wyda\u0142 r\u00f3wnie\u017c zaktualizowan\u0105 wersj\u0119 multimodalnego du\u017cego modelu Janus (Janus), Janus-Pro, kt\u00f3ry dziedziczy ujednolicon\u0105 architektur\u0119 poprzedniej generacji multimodalnego rozumienia i generowania oraz optymalizuje strategi\u0119 szkolenia, skaluj\u0105c dane szkoleniowe i rozmiar modelu, zapewniaj\u0105c wi\u0119ksz\u0105 wydajno\u015b\u0107.<\/p>\n\n\n\n<figure class=\"wp-block-image\"><img loading=\"lazy\" decoding=\"async\" width=\"1080\" height=\"427\" src=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/56e80359-198e-4faf-981a-54b7dfe49f02.png\" alt=\"\" class=\"wp-image-850\" srcset=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/56e80359-198e-4faf-981a-54b7dfe49f02.png 1080w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/56e80359-198e-4faf-981a-54b7dfe49f02-300x119.png 300w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/56e80359-198e-4faf-981a-54b7dfe49f02-1024x405.png 1024w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/56e80359-198e-4faf-981a-54b7dfe49f02-768x304.png 768w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/56e80359-198e-4faf-981a-54b7dfe49f02-18x7.png 18w\" sizes=\"auto, (max-width: 1080px) 100vw, 1080px\" \/><\/figure>\n\n\n\n<figure class=\"wp-block-image\"><img loading=\"lazy\" decoding=\"async\" width=\"1080\" height=\"522\" src=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/af7da2cf-a17d-4ac3-95ba-42252fe1a481.png\" alt=\"\" class=\"wp-image-854\" srcset=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/af7da2cf-a17d-4ac3-95ba-42252fe1a481.png 1080w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/af7da2cf-a17d-4ac3-95ba-42252fe1a481-300x145.png 300w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/af7da2cf-a17d-4ac3-95ba-42252fe1a481-1024x495.png 1024w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/af7da2cf-a17d-4ac3-95ba-42252fe1a481-768x371.png 768w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/af7da2cf-a17d-4ac3-95ba-42252fe1a481-18x9.png 18w\" sizes=\"auto, (max-width: 1080px) 100vw, 1080px\" \/><\/figure>\n\n\n\n<div id=\"ez-toc-container\" class=\"ez-toc-v2_0_82_2 counter-hierarchy ez-toc-counter ez-toc-grey ez-toc-container-direction\">\n<div class=\"ez-toc-title-container\">\n<p class=\"ez-toc-title\" style=\"cursor:inherit\">Spis tre\u015bci<\/p>\n<span class=\"ez-toc-title-toggle\"><a href=\"#\" class=\"ez-toc-pull-right ez-toc-btn ez-toc-btn-xs ez-toc-btn-default ez-toc-toggle\" aria-label=\"Prze\u0142\u0105czanie spisu tre\u015bci\"><span class=\"ez-toc-js-icon-con\"><span class=\"\"><span class=\"eztoc-hide\" style=\"display:none;\">Toggle<\/span><span class=\"ez-toc-icon-toggle-span\"><svg style=\"fill: #999;color:#999\" xmlns=\"http:\/\/www.w3.org\/2000\/svg\" class=\"list-377408\" width=\"20px\" height=\"20px\" viewbox=\"0 0 24 24\" fill=\"none\"><path d=\"M6 6H4v2h2V6zm14 0H8v2h12V6zM4 11h2v2H4v-2zm16 0H8v2h12v-2zM4 16h2v2H4v-2zm16 0H8v2h12v-2z\" fill=\"currentColor\"><\/path><\/svg><svg style=\"fill: #999;color:#999\" class=\"arrow-unsorted-368013\" xmlns=\"http:\/\/www.w3.org\/2000\/svg\" width=\"10px\" height=\"10px\" viewbox=\"0 0 24 24\" version=\"1.2\" baseprofile=\"tiny\"><path d=\"M18.2 9.3l-6.2-6.3-6.2 6.3c-.2.2-.3.4-.3.7s.1.5.3.7c.2.2.4.3.7.3h11c.3 0 .5-.1.7-.3.2-.2.3-.5.3-.7s-.1-.5-.3-.7zM5.8 14.7l6.2 6.3 6.2-6.3c.2-.2.3-.5.3-.7s-.1-.5-.3-.7c-.2-.2-.4-.3-.7-.3h-11c-.3 0-.5.1-.7.3-.2.2-.3.5-.3.7s.1.5.3.7z\"\/><\/svg><\/span><\/span><\/span><\/a><\/span><\/div>\n<nav><ul class='ez-toc-list ez-toc-list-level-1' ><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-1\" href=\"https:\/\/janusai.pro\/pl\/how-good-is-deepseeks-janus-pro\/#Janus-Pro\" >Janus-Pro<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-2\" href=\"https:\/\/janusai.pro\/pl\/how-good-is-deepseeks-janus-pro\/#Model_architecture\" >Architektura modelu<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-3\" href=\"https:\/\/janusai.pro\/pl\/how-good-is-deepseeks-janus-pro\/#Training_strategy\" >Strategia szkoleniowa<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-4\" href=\"https:\/\/janusai.pro\/pl\/how-good-is-deepseeks-janus-pro\/#Training_data_scaling\" >Skalowanie danych treningowych<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-5\" href=\"https:\/\/janusai.pro\/pl\/how-good-is-deepseeks-janus-pro\/#Model_scaling\" >Skalowanie modelu<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-6\" href=\"https:\/\/janusai.pro\/pl\/how-good-is-deepseeks-janus-pro\/#Model_evaluation\" >Ocena modelu<\/a><\/li><\/ul><\/nav><\/div>\n<h2 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Janus-Pro\"><\/span>Janus-Pro<span class=\"ez-toc-section-end\"><\/span><\/h2>\n\n\n\n<p><a href=\"https:\/\/huggingface.co\/deepseek-ai\/Janus-Pro-7B\" target=\"_blank\" rel=\"noreferrer noopener nofollow\">Janus-Pro<\/a> to zunifikowany multimodalny model j\u0119zykowy (MLLM), kt\u00f3ry mo\u017ce jednocze\u015bnie przetwarza\u0107 multimodalne zadania rozumienia i generowania, tj. mo\u017ce rozumie\u0107 tre\u015b\u0107 obrazu, a tak\u017ce generowa\u0107 tekst.<\/p>\n\n\n\n<p>Oddziela kodery wizualne do multimodalnego rozumienia i generowania (tj. r\u00f3\u017cne tokenizery s\u0105 u\u017cywane dla danych wej\u015bciowych rozumienia obrazu oraz danych wej\u015bciowych i wyj\u015bciowych generowania obrazu) i przetwarza je za pomoc\u0105 ujednoliconej transformaty autoregresyjnej.<\/p>\n\n\n\n<p>Jako zaawansowany multimodalny model rozumienia i generowania, jest on ulepszon\u0105 wersj\u0105 poprzedniego modelu Janus.<\/p>\n\n\n\n<p>W mitologii rzymskiej Janus (Janus) jest dwulicowym bogiem-opiekunem, kt\u00f3ry symbolizuje sprzeczno\u015b\u0107 i przemian\u0119. Ma dwie twarze, co sugeruje r\u00f3wnie\u017c, \u017ce model Janus mo\u017ce rozumie\u0107 i generowa\u0107 obrazy, co jest bardzo odpowiednie. Co dok\u0142adnie zaktualizowa\u0142 PRO?<\/p>\n\n\n\n<p>Janus, jako ma\u0142y model 1.3B, jest bardziej wersj\u0105 pogl\u0105dow\u0105 ni\u017c oficjaln\u0105. Bada zunifikowane multimodalne rozumienie i generowanie, ale ma wiele problem\u00f3w, takich jak niestabilne efekty generowania obrazu, du\u017ce odchylenia od instrukcji u\u017cytkownika i niewystarczaj\u0105ce szczeg\u00f3\u0142y.<\/p>\n\n\n\n<p>Wersja Pro optymalizuje strategi\u0119 treningow\u0105, zwi\u0119ksza zestaw danych treningowych i zapewnia wi\u0119kszy model (7B) do wyboru, zapewniaj\u0105c jednocze\u015bnie model 1B.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Model_architecture\"><\/span>Architektura modelu<span class=\"ez-toc-section-end\"><\/span><\/h2>\n\n\n\n<p><a href=\"https:\/\/huggingface.co\/deepseek-ai\/Janus-Pro-7B\" target=\"_blank\" rel=\"noreferrer noopener nofollow\">Jaus-Pro i Janus<\/a> s\u0105 identyczne pod wzgl\u0119dem architektury modelu. (Tylko 1.3B! Janus ujednolica multimodalne rozumienie i generowanie)<\/p>\n\n\n\n<figure class=\"wp-block-image\"><img loading=\"lazy\" decoding=\"async\" width=\"1080\" height=\"571\" src=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/60356ab0-3c6e-4017-9eba-7ee44e0a1006.png\" alt=\"\" class=\"wp-image-851\" srcset=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/60356ab0-3c6e-4017-9eba-7ee44e0a1006.png 1080w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/60356ab0-3c6e-4017-9eba-7ee44e0a1006-300x159.png 300w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/60356ab0-3c6e-4017-9eba-7ee44e0a1006-1024x541.png 1024w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/60356ab0-3c6e-4017-9eba-7ee44e0a1006-768x406.png 768w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/60356ab0-3c6e-4017-9eba-7ee44e0a1006-18x10.png 18w\" sizes=\"auto, (max-width: 1080px) 100vw, 1080px\" \/><\/figure>\n\n\n\n<p>Podstawow\u0105 zasad\u0105 projektow\u0105 jest oddzielenie kodowania wizualnego w celu wsparcia multimodalnego rozumienia i generowania. Janus-Pro koduje oryginalny obraz\/tekst oddzielnie, wyodr\u0119bnia wielowymiarowe cechy i przetwarza je za pomoc\u0105 ujednoliconej transformaty autoregresyjnej.<\/p>\n\n\n\n<p>Multimodalne rozumienie obrazu wykorzystuje SigLIP do kodowania cech obrazu (niebieski koder na powy\u017cszym rysunku), a zadanie generowania wykorzystuje tokenizator VQ do dyskretyzacji obrazu (\u017c\u00f3\u0142ty koder na powy\u017cszym rysunku). Na koniec wszystkie sekwencje cech s\u0105 wprowadzane do LLM w celu przetworzenia<\/p>\n\n\n\n<h2 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Training_strategy\"><\/span>Strategia szkoleniowa<span class=\"ez-toc-section-end\"><\/span><\/h2>\n\n\n\n<p>Je\u015bli chodzi o strategi\u0119 szkolenia, Janus-Pro wprowadzi\u0142 wi\u0119cej ulepsze\u0144. Stara wersja Janusa wykorzystywa\u0142a trzystopniow\u0105 strategi\u0119 treningow\u0105, w kt\u00f3rej etap I trenuje adapter wej\u015bciowy i g\u0142owic\u0119 generuj\u0105c\u0105 obraz w celu zrozumienia obrazu i generowania obrazu, etap II wykonuje ujednolicone szkolenie wst\u0119pne, a etap III dostraja koder zrozumienia na tej podstawie. (Strategia treningowa Janus zosta\u0142a przedstawiona na poni\u017cszym rysunku).<\/p>\n\n\n\n<figure class=\"wp-block-image\"><img loading=\"lazy\" decoding=\"async\" width=\"1080\" height=\"381\" src=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/dbf6954f-1a18-4572-a452-ec995c8af71a.png\" alt=\"\" class=\"wp-image-849\" srcset=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/dbf6954f-1a18-4572-a452-ec995c8af71a.png 1080w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/dbf6954f-1a18-4572-a452-ec995c8af71a-300x106.png 300w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/dbf6954f-1a18-4572-a452-ec995c8af71a-1024x361.png 1024w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/dbf6954f-1a18-4572-a452-ec995c8af71a-768x271.png 768w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/dbf6954f-1a18-4572-a452-ec995c8af71a-18x6.png 18w\" sizes=\"auto, (max-width: 1080px) 100vw, 1080px\" \/><\/figure>\n\n\n\n<p>Strategia ta wykorzystuje jednak metod\u0119 PixArt do podzielenia treningu generowania tekstu na obraz w etapie II, co skutkuje nisk\u0105 wydajno\u015bci\u0105 obliczeniow\u0105.<\/p>\n\n\n\n<p>W tym celu wyd\u0142u\u017cyli\u015bmy czas szkolenia w etapie I i dodali\u015bmy szkolenie z danymi ImageNet, aby model m\u00f3g\u0142 skutecznie modelowa\u0107 zale\u017cno\u015bci pikseli przy sta\u0142ych parametrach LLM. W etapie II odrzucili\u015bmy dane ImageNet i bezpo\u015brednio wykorzystali\u015bmy dane pary tekst-obraz do szkolenia, co poprawia wydajno\u015b\u0107 szkolenia. Ponadto dostosowali\u015bmy stosunek danych w etapie III (multimodalne:tylko tekstowe:wizualno-semantyczne dane wykresu z 7:3:10 do 5:1:4), poprawiaj\u0105c multimodalne zrozumienie przy jednoczesnym zachowaniu mo\u017cliwo\u015bci generowania wizualnego.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Training_data_scaling\"><\/span>Skalowanie danych treningowych<span class=\"ez-toc-section-end\"><\/span><\/h2>\n\n\n\n<p>Janus-Pro skaluje r\u00f3wnie\u017c dane treningowe Janus pod wzgl\u0119dem multimodalnego rozumienia i generowania wizualnego.<\/p>\n\n\n\n<p>Rozumienie multimodalne: Dane przedtreningowe Etapu II s\u0105 oparte na DeepSeek-VL2 i obejmuj\u0105 oko\u0142o 90 milion\u00f3w nowych pr\u00f3bek, w tym dane podpis\u00f3w obraz\u00f3w (takie jak YFCC) oraz dane tabel, wykres\u00f3w i rozumienia dokument\u00f3w (takie jak Docmatix).<\/p>\n\n\n\n<p>Etap III nadzorowanego dostrajania dodatkowo wprowadza zrozumienie MEME, chi\u0144skie dane dialogowe itp. w celu poprawy wydajno\u015bci modelu w zakresie przetwarzania wielozadaniowego i mo\u017cliwo\u015bci dialogowych.<\/p>\n\n\n\n<p>Generowanie wizualne: Poprzednie wersje wykorzystywa\u0142y rzeczywiste dane o niskiej jako\u015bci i wysokim poziomie szum\u00f3w, co wp\u0142ywa\u0142o na stabilno\u015b\u0107 i estetyk\u0119 generowanych obraz\u00f3w tekstowych.<\/p>\n\n\n\n<p>Janus-Pro wprowadza oko\u0142o 72 milion\u00f3w syntetycznych danych estetycznych, zwi\u0119kszaj\u0105c stosunek danych rzeczywistych do danych syntetycznych do 1:1. Eksperymenty wykaza\u0142y, \u017ce dane syntetyczne przyspieszaj\u0105 zbie\u017cno\u015b\u0107 modelu i znacznie poprawiaj\u0105 stabilno\u015b\u0107 i jako\u015b\u0107 estetyczn\u0105 generowanych obraz\u00f3w.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Model_scaling\"><\/span>Skalowanie modelu<span class=\"ez-toc-section-end\"><\/span><\/h2>\n\n\n\n<p>Janus Pro rozszerza rozmiar modelu do 7B, podczas gdy poprzednia wersja Janusa wykorzystywa\u0142a 1,5B DeepSeek-LLM, aby zweryfikowa\u0107 skuteczno\u015b\u0107 oddzielania kodowania wizualnego. Eksperymenty pokazuj\u0105, \u017ce wi\u0119kszy LLM znacznie przyspiesza zbie\u017cno\u015b\u0107 multimodalnego rozumienia i generowania wizualnego, co dodatkowo weryfikuje siln\u0105 skalowalno\u015b\u0107 metody.<\/p>\n\n\n\n<figure class=\"wp-block-image\"><img loading=\"lazy\" decoding=\"async\" width=\"864\" height=\"352\" src=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/a19590e2-1805-493d-85e3-09c9b8e2274b.png\" alt=\"\" class=\"wp-image-848\" srcset=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/a19590e2-1805-493d-85e3-09c9b8e2274b.png 864w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/a19590e2-1805-493d-85e3-09c9b8e2274b-300x122.png 300w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/a19590e2-1805-493d-85e3-09c9b8e2274b-768x313.png 768w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/a19590e2-1805-493d-85e3-09c9b8e2274b-18x7.png 18w\" sizes=\"auto, (max-width: 864px) 100vw, 864px\" \/><\/figure>\n\n\n\n<figure class=\"wp-block-image\"><img loading=\"lazy\" decoding=\"async\" width=\"1080\" height=\"536\" src=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/c78ed17c-6e07-43ef-bfda-ae287f597bba.png\" alt=\"\" class=\"wp-image-852\" srcset=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/c78ed17c-6e07-43ef-bfda-ae287f597bba.png 1080w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/c78ed17c-6e07-43ef-bfda-ae287f597bba-300x149.png 300w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/c78ed17c-6e07-43ef-bfda-ae287f597bba-1024x508.png 1024w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/c78ed17c-6e07-43ef-bfda-ae287f597bba-768x381.png 768w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/c78ed17c-6e07-43ef-bfda-ae287f597bba-18x9.png 18w\" sizes=\"auto, (max-width: 1080px) 100vw, 1080px\" \/><\/figure>\n\n\n\n<p>Eksperyment wykorzystuje DeepSeek-LLM (1.5B i 7B, obs\u0142uguj\u0105cy maksymaln\u0105 sekwencj\u0119 4096) jako podstawowy model j\u0119zyka. W przypadku zadania rozumienia multimodalnego, SigLIP-Large-Patch16-384 jest u\u017cywany jako koder wizualny, rozmiar s\u0142ownika kodera wynosi 16384, wielokrotno\u015b\u0107 pr\u00f3bkowania w d\u00f3\u0142 obrazu wynosi 16, a zar\u00f3wno adaptery rozumienia, jak i generowania s\u0105 dwuwarstwowymi MLP.<\/p>\n\n\n\n<p>Etap II uczenia wykorzystuje strategi\u0119 wczesnego zatrzymania 270K, wszystkie obrazy s\u0105 jednolicie dostosowane do rozdzielczo\u015bci 384\u00d7384, a sekwencja jest wykorzystywana do poprawy wydajno\u015bci uczenia. Janus-Pro jest trenowany i oceniany przy u\u017cyciu HAI-LLM. Wersje 1.5B\/7B by\u0142y trenowane na 16\/32 w\u0119z\u0142ach (8\u00d7Nvidia A100 40GB na w\u0119ze\u0142) przez odpowiednio 9\/14 dni.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Model_evaluation\"><\/span>Ocena modelu<span class=\"ez-toc-section-end\"><\/span><\/h2>\n\n\n\n<p>Janus-Pro zosta\u0142 oceniony osobno pod k\u0105tem multimodalnego rozumienia i generowania. Og\u00f3lnie rzecz bior\u0105c, rozumienie mo\u017ce by\u0107 nieco s\u0142abe, ale jest uwa\u017cane za doskona\u0142e w\u015br\u00f3d modeli open source o tym samym rozmiarze (nale\u017cy przypuszcza\u0107, \u017ce jest ono w du\u017cej mierze ograniczone przez sta\u0142\u0105 rozdzielczo\u015b\u0107 wej\u015bciow\u0105 i mo\u017cliwo\u015bci OCR).<\/p>\n\n\n\n<p>Janus-Pro-7B uzyska\u0142 wynik 79,2 pkt. w te\u015bcie MMBench, kt\u00f3ry jest zbli\u017cony do poziomu pierwszorz\u0119dnych modeli open source (ten sam rozmiar InternVL2.5 i Qwen2-VL to oko\u0142o 82 pkt.). Jest to jednak spora poprawa wzgl\u0119dem poprzedniej generacji Janusa.<\/p>\n\n\n\n<p>Je\u015bli chodzi o generowanie obrazu, poprawa w stosunku do poprzedniej generacji jest jeszcze bardziej znacz\u0105ca i jest uwa\u017cana za doskona\u0142y poziom w\u015br\u00f3d modeli open source. Wynik Janus-Pro w te\u015bcie por\u00f3wnawczym GenEval (0,80) r\u00f3wnie\u017c przewy\u017csza modele takie jak DALL-E 3 (0,67) i Stable Diffusion 3 Medium (0,74).<\/p>\n\n\n\n<figure class=\"wp-block-image\"><img loading=\"lazy\" decoding=\"async\" width=\"1080\" height=\"827\" src=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/47aa92e1-b474-4874-956e-db210da9d349.png\" alt=\"\" class=\"wp-image-853\" srcset=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/47aa92e1-b474-4874-956e-db210da9d349.png 1080w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/47aa92e1-b474-4874-956e-db210da9d349-300x230.png 300w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/47aa92e1-b474-4874-956e-db210da9d349-1024x784.png 1024w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/47aa92e1-b474-4874-956e-db210da9d349-768x588.png 768w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/47aa92e1-b474-4874-956e-db210da9d349-16x12.png 16w\" sizes=\"auto, (max-width: 1080px) 100vw, 1080px\" \/><\/figure>\n\n\n\n<figure class=\"wp-block-image\"><img loading=\"lazy\" decoding=\"async\" width=\"1080\" height=\"744\" src=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/38de369b-7f1f-4159-83a7-5f411e816d55.png\" alt=\"\" class=\"wp-image-855\" srcset=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/38de369b-7f1f-4159-83a7-5f411e816d55.png 1080w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/38de369b-7f1f-4159-83a7-5f411e816d55-300x207.png 300w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/38de369b-7f1f-4159-83a7-5f411e816d55-1024x705.png 1024w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/38de369b-7f1f-4159-83a7-5f411e816d55-768x529.png 768w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/38de369b-7f1f-4159-83a7-5f411e816d55-18x12.png 18w\" sizes=\"auto, (max-width: 1080px) 100vw, 1080px\" \/><\/figure>","protected":false},"excerpt":{"rendered":"<p>W przeddzie\u0144 Festiwalu Wiosny wydany zosta\u0142 model DeepSeek-R1. Dzi\u0119ki czystej architekturze RL, DeepSeek wyci\u0105gn\u0105\u0142 wnioski z wielkich innowacji CoT i przewy\u017csza ChatGPT w matematyce, kodzie i logicznym rozumowaniu. Ponadto, jego wagi modelu open-source, niskie koszty szkolenia i niskie ceny API sprawi\u0142y, \u017ce DeepSeek sta\u0142 si\u0119 hitem w ca\u0142ym Internecie, nawet...<\/p>","protected":false},"author":2,"featured_media":704,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_kadence_starter_templates_imported_post":false,"_kad_post_transparent":"","_kad_post_title":"","_kad_post_layout":"","_kad_post_sidebar_id":"","_kad_post_content_style":"","_kad_post_vertical_padding":"","_kad_post_feature":"","_kad_post_feature_position":"","_kad_post_header":false,"_kad_post_footer":false,"footnotes":""},"categories":[1],"tags":[],"class_list":["post-847","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-uncategorized"],"_links":{"self":[{"href":"https:\/\/janusai.pro\/pl\/wp-json\/wp\/v2\/posts\/847","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/janusai.pro\/pl\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/janusai.pro\/pl\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/janusai.pro\/pl\/wp-json\/wp\/v2\/users\/2"}],"replies":[{"embeddable":true,"href":"https:\/\/janusai.pro\/pl\/wp-json\/wp\/v2\/comments?post=847"}],"version-history":[{"count":1,"href":"https:\/\/janusai.pro\/pl\/wp-json\/wp\/v2\/posts\/847\/revisions"}],"predecessor-version":[{"id":856,"href":"https:\/\/janusai.pro\/pl\/wp-json\/wp\/v2\/posts\/847\/revisions\/856"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/janusai.pro\/pl\/wp-json\/wp\/v2\/media\/704"}],"wp:attachment":[{"href":"https:\/\/janusai.pro\/pl\/wp-json\/wp\/v2\/media?parent=847"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/janusai.pro\/pl\/wp-json\/wp\/v2\/categories?post=847"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/janusai.pro\/pl\/wp-json\/wp\/v2\/tags?post=847"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}