{"id":746,"date":"2025-01-30T13:05:33","date_gmt":"2025-01-30T13:05:33","guid":{"rendered":"https:\/\/janusai.pro\/?p=746"},"modified":"2025-01-30T13:05:35","modified_gmt":"2025-01-30T13:05:35","slug":"the-complete-explanation-from-deepseek-janus-to-janus-pro","status":"publish","type":"post","link":"https:\/\/janusai.pro\/pl\/the-complete-explanation-from-deepseek-janus-to-janus-pro\/","title":{"rendered":"Pe\u0142ne wyja\u015bnienie: od DeepSeek Janus do Janus-Pro!"},"content":{"rendered":"<div style=\"margin-top: 0px; margin-bottom: 0px;\" class=\"sharethis-inline-share-buttons\" ><\/div>\n<p>Przes\u0142anie na przysz\u0142o\u015b\u0107: Janus to prosty, ujednolicony i rozszerzalny multimodalny model rozumienia i generowania, kt\u00f3ry oddziela multimodalne rozumienie i generowane kodowanie wizualne, \u0142agodz\u0105c potencjalne konflikty mi\u0119dzy tymi dwoma zadaniami. W przysz\u0142o\u015bci mo\u017cna go rozszerzy\u0107 o dodatkowe modalno\u015bci wej\u015bciowe. Janus-Pro opiera si\u0119 na tym fundamencie, optymalizuj\u0105c strategi\u0119 szkolenia (w tym zwi\u0119kszaj\u0105c liczb\u0119 etap\u00f3w szkolenia, dostosowuj\u0105c proporcje danych itp.), dodaj\u0105c wi\u0119cej danych (w tym wykorzystanie danych syntetycznych itp.) i zwi\u0119kszaj\u0105c rozmiar modelu (do 7 miliard\u00f3w parametr\u00f3w), co prowadzi do post\u0119p\u00f3w w zakresie multimodalnego rozumienia modelu i mo\u017cliwo\u015bci przestrzegania instrukcji tekst-obraz.<\/p>\n\n\n\n<figure class=\"wp-block-image\"><img decoding=\"async\" src=\"https:\/\/rmy9ct2fln.feishu.cn\/space\/api\/box\/stream\/download\/asynccode\/?code=Mjg4MjEwYjVlNzk0YTgyMTc0NDJlODQ4MTU2ZmRjYTVfWnhaaVEyZlEwUHFrUHNUeGNCOWpCRU1EVDN0QktBMUxfVG9rZW46SkVQZmJmSEhqb1g4YTJ4MVNYdmNPT2oybmVmXzE3MzgyNDIwMzc6MTczODI0NTYzN19WNA\" alt=\"\"\/><\/figure>\n\n\n\n<p><a href=\"https:\/\/github.com\/deepseek-ai\/JanusJanus\" target=\"_blank\" rel=\"noreferrer noopener nofollow\">Adres kodowy<\/a><\/p>\n\n\n\n<p><a href=\"https:\/\/github.com\/deepseek-ai\/Janus\/blob\/main\/janus_pro_tech_report.pdf\" target=\"_blank\" rel=\"noreferrer noopener nofollow\">Adres Janus Pro<\/a><\/p>\n\n\n\n<p><a href=\"https:\/\/huggingface.co\/deepseek-ai\/Janus-Pro-7B\" target=\"_blank\" rel=\"noreferrer noopener nofollow\">Janus-Pro<\/a> jest zaawansowan\u0105 wersj\u0105 poprzedniej pracy Janus, w szczeg\u00f3lno\u015bci obejmuj\u0105c\u0105 (1) zoptymalizowan\u0105 strategi\u0119 treningow\u0105, (2) rozszerzone dane treningowe i (3) wi\u0119ksze rozmiary modeli. Dzi\u0119ki tym ulepszeniom Janus-Pro dokonuje znacz\u0105cych post\u0119p\u00f3w w zakresie multimodalnego rozumienia i mo\u017cliwo\u015bci przestrzegania instrukcji tekst-obraz, jednocze\u015bnie zwi\u0119kszaj\u0105c stabilno\u015b\u0107 generowania tekstu-obrazu. Zanim rozpakujemy Janus-Pro, przejrzyjmy Janusa.<\/p>\n\n\n\n<div id=\"ez-toc-container\" class=\"ez-toc-v2_0_82_2 counter-hierarchy ez-toc-counter ez-toc-grey ez-toc-container-direction\">\n<div class=\"ez-toc-title-container\">\n<p class=\"ez-toc-title\" style=\"cursor:inherit\">Spis tre\u015bci<\/p>\n<span class=\"ez-toc-title-toggle\"><a href=\"#\" class=\"ez-toc-pull-right ez-toc-btn ez-toc-btn-xs ez-toc-btn-default ez-toc-toggle\" aria-label=\"Prze\u0142\u0105czanie spisu tre\u015bci\"><span class=\"ez-toc-js-icon-con\"><span class=\"\"><span class=\"eztoc-hide\" style=\"display:none;\">Toggle<\/span><span class=\"ez-toc-icon-toggle-span\"><svg style=\"fill: #999;color:#999\" xmlns=\"http:\/\/www.w3.org\/2000\/svg\" class=\"list-377408\" width=\"20px\" height=\"20px\" viewbox=\"0 0 24 24\" fill=\"none\"><path d=\"M6 6H4v2h2V6zm14 0H8v2h12V6zM4 11h2v2H4v-2zm16 0H8v2h12v-2zM4 16h2v2H4v-2zm16 0H8v2h12v-2z\" fill=\"currentColor\"><\/path><\/svg><svg style=\"fill: #999;color:#999\" class=\"arrow-unsorted-368013\" xmlns=\"http:\/\/www.w3.org\/2000\/svg\" width=\"10px\" height=\"10px\" viewbox=\"0 0 24 24\" version=\"1.2\" baseprofile=\"tiny\"><path d=\"M18.2 9.3l-6.2-6.3-6.2 6.3c-.2.2-.3.4-.3.7s.1.5.3.7c.2.2.4.3.7.3h11c.3 0 .5-.1.7-.3.2-.2.3-.5.3-.7s-.1-.5-.3-.7zM5.8 14.7l6.2 6.3 6.2-6.3c.2-.2.3-.5.3-.7s-.1-.5-.3-.7c-.2-.2-.4-.3-.7-.3h-11c-.3 0-.5.1-.7.3-.2.2-.3.5-.3.7s.1.5.3.7z\"\/><\/svg><\/span><\/span><\/span><\/a><\/span><\/div>\n<nav><ul class='ez-toc-list ez-toc-list-level-1' ><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-1\" href=\"https:\/\/janusai.pro\/pl\/the-complete-explanation-from-deepseek-janus-to-janus-pro\/#Reviewing_Janus\" >Przegl\u0105d Janusa<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-2\" href=\"https:\/\/janusai.pro\/pl\/the-complete-explanation-from-deepseek-janus-to-janus-pro\/#Janus_training_is_divided_into_3_phases\" >Szkolenie Janus podzielone jest na 3 fazy:<\/a><ul class='ez-toc-list-level-3' ><li class='ez-toc-heading-level-3'><a class=\"ez-toc-link ez-toc-heading-3\" href=\"https:\/\/janusai.pro\/pl\/the-complete-explanation-from-deepseek-janus-to-janus-pro\/#Phase_1\" >Faza 1<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-3'><a class=\"ez-toc-link ez-toc-heading-4\" href=\"https:\/\/janusai.pro\/pl\/the-complete-explanation-from-deepseek-janus-to-janus-pro\/#Phase_2\" >Faza 2<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-3'><a class=\"ez-toc-link ez-toc-heading-5\" href=\"https:\/\/janusai.pro\/pl\/the-complete-explanation-from-deepseek-janus-to-janus-pro\/#Phase_3\" >Faza 3<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-3'><a class=\"ez-toc-link ez-toc-heading-6\" href=\"https:\/\/janusai.pro\/pl\/the-complete-explanation-from-deepseek-janus-to-janus-pro\/#Training_Objectives\" >Cele szkolenia<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-3'><a class=\"ez-toc-link ez-toc-heading-7\" href=\"https:\/\/janusai.pro\/pl\/the-complete-explanation-from-deepseek-janus-to-janus-pro\/#Reasoning\" >Uzasadnienie<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-3'><a class=\"ez-toc-link ez-toc-heading-8\" href=\"https:\/\/janusai.pro\/pl\/the-complete-explanation-from-deepseek-janus-to-janus-pro\/#Possible_extensions\" >Mo\u017cliwe rozszerzenia<\/a><\/li><\/ul><\/li><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-9\" href=\"https:\/\/janusai.pro\/pl\/the-complete-explanation-from-deepseek-janus-to-janus-pro\/#Janus-Pro_Upgrade\" >Aktualizacja Janus-Pro<\/a><ul class='ez-toc-list-level-3' ><li class='ez-toc-heading-level-3'><a class=\"ez-toc-link ez-toc-heading-10\" href=\"https:\/\/janusai.pro\/pl\/the-complete-explanation-from-deepseek-janus-to-janus-pro\/#Main_Improvements\" >G\u0142\u00f3wne ulepszenia<\/a><ul class='ez-toc-list-level-4' ><li class='ez-toc-heading-level-4'><a class=\"ez-toc-link ez-toc-heading-11\" href=\"https:\/\/janusai.pro\/pl\/the-complete-explanation-from-deepseek-janus-to-janus-pro\/#Training_Strategy\" >Strategia szkoleniowa<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-4'><a class=\"ez-toc-link ez-toc-heading-12\" href=\"https:\/\/janusai.pro\/pl\/the-complete-explanation-from-deepseek-janus-to-janus-pro\/#Data_Scale\" >Skala danych<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-4'><a class=\"ez-toc-link ez-toc-heading-13\" href=\"https:\/\/janusai.pro\/pl\/the-complete-explanation-from-deepseek-janus-to-janus-pro\/#Model_Scale\" >Skala modelu<\/a><\/li><\/ul><\/li><li class='ez-toc-page-1 ez-toc-heading-level-3'><a class=\"ez-toc-link ez-toc-heading-14\" href=\"https:\/\/janusai.pro\/pl\/the-complete-explanation-from-deepseek-janus-to-janus-pro\/#Experimental_details\" >Szczeg\u00f3\u0142y eksperymentu<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-3'><a class=\"ez-toc-link ez-toc-heading-15\" href=\"https:\/\/janusai.pro\/pl\/the-complete-explanation-from-deepseek-janus-to-janus-pro\/#Insufficient\" >Niewystarczaj\u0105ce<\/a><\/li><\/ul><\/li><\/ul><\/nav><\/div>\n<h2 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Reviewing_Janus\"><\/span>Przegl\u0105d Janusa<span class=\"ez-toc-section-end\"><\/span><\/h2>\n\n\n\n<p>Poprzednik Janus jest autoregresyjn\u0105 struktur\u0105 dla ujednoliconego multimodalnego rozumienia i generowania, kt\u00f3ra s\u0142u\u017cy do oddzielenia kodowania wizualnego dla ujednoliconego multimodalnego rozumienia i generowania. W przypadku rozumienia multimodalnego, projekt zazwyczaj opiera si\u0119 na LLaVA, wykorzystuj\u0105c kodery wizualne jako pomost umo\u017cliwiaj\u0105cy du\u017cym modelom j\u0119zykowym rozumienie obraz\u00f3w. W przypadku generowania jest on zwykle oparty na modelach dyfuzyjnych, a niekt\u00f3re opieraj\u0105 si\u0119 na metodach autoregresyjnych. Niekt\u00f3re podej\u015bcia pr\u00f3buj\u0105 u\u017cy\u0107 pojedynczego transformatora, aby spr\u00f3bowa\u0107 ujednolici\u0107 multimodalne zadania rozumienia i generowania, kt\u00f3re zazwyczaj wykorzystuj\u0105 pojedynczy koder wizualny do przetwarzania danych wej\u015bciowych obu zada\u0144.<\/p>\n\n\n\n<p>Istniej\u0105 jednak r\u00f3\u017cnice w reprezentacjach wymaganych do multimodalnych zada\u0144 rozumienia i generowania. W zadaniu rozumienia multimodalnego koder wizualny ma na celu wyodr\u0119bnienie wysokopoziomowych informacji semantycznych (np. kategorii obiekt\u00f3w lub atrybut\u00f3w wizualnych), a wynik obejmuje nie tylko wyodr\u0119bnianie informacji z obrazu, ale tak\u017ce z\u0142o\u017cone rozumowanie semantyczne, przy czym koder koncentruje si\u0119 g\u0142\u00f3wnie na wysokowymiarowych reprezentacjach semantycznych. Zadanie generowania dotyczy g\u0142\u00f3wnie generowania lokalnych szczeg\u00f3\u0142\u00f3w i utrzymywania globalnej sp\u00f3jno\u015bci obrazu, co wymaga niskowymiarowych zakodowanych reprezentacji struktur przestrzennych i szczeg\u00f3\u0142\u00f3w tekstury. Ujednolicenie reprezentacji obu zada\u0144 w tej samej przestrzeni mo\u017ce prowadzi\u0107 do konflikt\u00f3w.<\/p>\n\n\n\n<p>Janus zawiera 2 niezale\u017cne \u015bcie\u017cki kodowania wizualnego dla multimodalnego rozumienia i generowania, i przynosi dwie korzy\u015bci: 1) \u0142agodzi konflikty wynikaj\u0105ce z r\u00f3\u017cnych wymaga\u0144 dotycz\u0105cych ziarnisto\u015bci multimodalnego rozumienia i generowania oraz 2) jest elastyczny i skalowalny, dzi\u0119ki czemu zar\u00f3wno zadania rozumienia, jak i generowania mog\u0105 by\u0107 kodowane przy u\u017cyciu najnowocze\u015bniejszych technik kodowania specyficznych dla ich dziedzin, aw przysz\u0142o\u015bci mog\u0105 by\u0107 zasilane chmurami punkt\u00f3w, sygna\u0142ami EEG lub danymi audio i przetwarzane przy u\u017cyciu ujednoliconego W przysz\u0142o\u015bci chmury punkt\u00f3w, sygna\u0142y EEG lub dane audio mog\u0105 by\u0107 wprowadzane i przetwarzane za pomoc\u0105 ujednoliconego transformatora.<\/p>\n\n\n\n<figure class=\"wp-block-image\"><img decoding=\"async\" src=\"https:\/\/rmy9ct2fln.feishu.cn\/space\/api\/box\/stream\/download\/asynccode\/?code=OTE3ZjkyNWQ5MmUwNDQzM2VjN2VlNWYwZjAxYTVmZGRfMXpJMWVObDBKOHYxTVJqeEw2S0pHT2hGU3RuVHdnWVdfVG9rZW46UDQyQ2Jrb0Myb1h0bjR4TFBrV2NRS29GbkRmXzE3MzgyNDIwMzc6MTczODI0NTYzN19WNA\" alt=\"\"\/><\/figure>\n\n\n\n<p>W celu zrozumienia tekstu, jest on konwertowany na dyskretne identyfikatory za pomoc\u0105 wbudowanego w LLM Tokenizera;<\/p>\n\n\n\n<p>W celu zrozumienia multimodalnego, wysokowymiarowe cechy semantyczne na obrazach s\u0105 wyodr\u0119bniane za pomoc\u0105 koder\u00f3w SigLIP (uwaga autora: Cosmos wykorzystuje r\u00f3wnie\u017c kodery SigLIP w sekcji Guardrails), a wyodr\u0119bnione cechy s\u0105 mapowane do przestrzeni cech tekstowych LLM za pomoc\u0105 Adaptora (2-warstwowego MLP);<\/p>\n\n\n\n<p>D\u0142ugi bok zosta\u0142 dostosowany do 384 pikseli, a kr\u00f3tki bok zosta\u0142 wype\u0142niony do 384 pikseli przy u\u017cyciu RGB(127, 127, 127);<\/p>\n\n\n\n<p>W celu wygenerowania wizualnego obraz zosta\u0142 przekonwertowany na dyskretne identyfikatory za pomoc\u0105 tokenizera VQ, a ka\u017cdy identyfikator zosta\u0142 zmapowany do przestrzeni cech tekstowych LLM za pomoc\u0105 Adaptora (2-warstwowego MLP);<\/p>\n\n\n\n<p>Kr\u00f3tkie kraw\u0119dzie zosta\u0142y zmniejszone do 384 pikseli, a d\u0142ugie kraw\u0119dzie zosta\u0142y przyci\u0119te do 384 pikseli;<\/p>\n\n\n\n<p>Og\u00f3lny trening zosta\u0142 przeprowadzony przy u\u017cyciu 16 w\u0119z\u0142\u00f3w, z kt\u00f3rych ka\u017cdy zawiera\u0142 8 procesor\u00f3w graficznych Nvidia A100;<\/p>\n\n\n\n<p>Zar\u00f3wno w przypadku zada\u0144 generowania wizualnego, jak i rozumienia multimodalnego, sekwencje cech obrazu i sekwencje cech tekstu s\u0105 po\u0142\u0105czone razem jako dane wej\u015bciowe do LLM (w tek\u015bcie u\u017cyto DeepSeek-LLM 1.3B);<\/p>\n\n\n\n<blockquote class=\"wp-block-quote is-layout-flow wp-block-quote-is-layout-flow\">\n<p>Wbudowana g\u0142owica predykcyjna LLM jest wykorzystywana do przewidywania tekstu zar\u00f3wno w zadaniach rozumienia czystego tekstu, jak i rozumienia multimodalnego, podczas gdy losowo zainicjowana g\u0142owica predykcyjna jest u\u017cywana do przewidywania obrazu w zadaniu generowania wizualnego. Ca\u0142y model jest zgodny ze struktur\u0105 autoregresyjn\u0105 bez potrzeby stosowania specjalnie zaprojektowanych masek uwagi.<\/p>\n<\/blockquote>\n\n\n\n<h2 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Janus_training_is_divided_into_3_phases\"><\/span><a href=\"https:\/\/huggingface.co\/deepseek-ai\/Janus-Pro-7B\" target=\"_blank\" rel=\"noreferrer noopener nofollow\">Szkolenie Janus<\/a> jest podzielony na 3 fazy:<span class=\"ez-toc-section-end\"><\/span><\/h2>\n\n\n\n<h3 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Phase_1\"><\/span>Faza 1<span class=\"ez-toc-section-end\"><\/span><\/h3>\n\n\n\n<p><strong>Adapter poci\u0105gowy i g\u0142owica obrazowa<\/strong> tworzenie po\u0142\u0105cze\u0144 mi\u0119dzy elementami j\u0119zykowymi i wizualnymi w przestrzeni osadzania, umo\u017cliwiaj\u0105c LLM zrozumienie podmiot\u00f3w na obrazie i uzyskanie wst\u0119pnych mo\u017cliwo\u015bci generowania wizualnego;<\/p>\n\n\n\n<p>W celu zrozumienia multimodalnego u\u017cyj 1,25 miliona sparowanych danych podpis\u00f3w obraz-tekst z SHareGPT4V w formacie: ;<\/p>\n\n\n\n<p>Do generowania wizualnego, przy u\u017cyciu 1,2 miliona pr\u00f3bek z ImageNet1k w formacie: ;<\/p>\n\n\n\n<h3 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Phase_2\"><\/span>Faza 2<span class=\"ez-toc-section-end\"><\/span><\/h3>\n\n\n\n<p><strong>Zunifikowane szkolenie wst\u0119pne<\/strong>Wykorzystanie multimodalnego korpusu do ujednoliconego treningu wst\u0119pnego w celu nauki multimodalnego rozumienia i generowania. W tej fazie wykorzystywane s\u0105 zwyk\u0142e dane tekstowe, multimodalne dane rozumienia i dane generowania wizualnego. Prosty trening generowania wizualnego przy u\u017cyciu ImageNet-1k, a nast\u0119pnie wykorzystanie og\u00f3lnych danych tekst-obraz w celu poprawy generowania wizualnego w otwartej domenie modelu;<\/p>\n\n\n\n<p>Zwyk\u0142e dane tekstowe: Wst\u0119pnie wytrenowany korpus DeepSeek-LLM;<\/p>\n\n\n\n<p>Przeplatane dane obraz-tekst: WikiHow i WIT;<\/p>\n\n\n\n<p>Dane podpis\u00f3w obraz\u00f3w: Obrazy z wielu \u017ar\u00f3de\u0142 i ponowne podpisanie niekt\u00f3rych obraz\u00f3w przy u\u017cyciu modeli multimodalnych o otwartym kodzie \u017ar\u00f3d\u0142owym, z danymi sformatowanymi jako pary Q&amp;A, np. Describe the image in detail.<caption>;<\/p>\n\n\n\n<p>Dane tabelaryczne i graficzne: odpowiednie dane tabelaryczne i graficzne z DeepSeek-VL w formacie ;<\/p>\n\n\n\n<p>Dane generowane wizualnie: pary obraz-napis z wielu zbior\u00f3w danych i 2 miliony danych wewn\u0119trznych;<\/p>\n\n\n\n<p>Podczas treningu tylko pierwsze zdanie podpisu jest losowo u\u017cywane z prawdopodobie\u0144stwem 25%;<\/p>\n\n\n\n<p>Pr\u00f3bki ImageNet pojawiaj\u0105 si\u0119 tylko w pocz\u0105tkowych 120 tysi\u0105cach krok\u00f3w szkoleniowych, a obrazy z innych zestaw\u00f3w danych pojawiaj\u0105 si\u0119 w kolejnych 60 tysi\u0105cach krok\u00f3w;<\/p>\n\n\n\n<h3 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Phase_3\"><\/span>Faza 3<span class=\"ez-toc-section-end\"><\/span><\/h3>\n\n\n\n<p><strong>Nadzorowane dostrajanie<\/strong>gdzie wst\u0119pnie wytrenowane modele s\u0105 dostrajane przy u\u017cyciu danych dostrajania instrukcji w celu zwi\u0119kszenia ich zdolno\u015bci do wykonywania instrukcji i prowadzenia dialogu. Dostrajanie wszystkich parametr\u00f3w z wyj\u0105tkiem kodera generuj\u0105cego. Maskowanie systemu i wskaz\u00f3wek u\u017cytkownika podczas nadzorowania odpowiedzi. Aby zapewni\u0107, \u017ce Janus ma bieg\u0142o\u015b\u0107 zar\u00f3wno w multimodalnym rozumieniu, jak i generowaniu, modele nie s\u0105 dostrajane osobno dla konkretnych zada\u0144. Zamiast tego u\u017cywamy mieszanki danych dialogowych tylko tekstowych, danych multimodalnego rozumienia i danych generowania wizualnego, aby zapewni\u0107 wszechstronno\u015b\u0107 w r\u00f3\u017cnych scenariuszach;<\/p>\n\n\n\n<p>Rozumienie tekstu: wykorzystuje dane z okre\u015blonych \u017ar\u00f3de\u0142;<\/p>\n\n\n\n<p>Rozumienie multimodalne: wykorzystywanie danych z wielu \u017ar\u00f3de\u0142 do dostosowywania instrukcji;<\/p>\n\n\n\n<p>Generowanie wizualne: przy u\u017cyciu podzbioru par obraz-tekst z niekt\u00f3rych zbior\u00f3w danych fazy II, a tak\u017ce 4 milion\u00f3w danych wewn\u0119trznych;<\/p>\n\n\n\n<p>Format danych to: User: \\n Assistant: ;<\/p>\n\n\n\n<figure class=\"wp-block-image\"><img decoding=\"async\" src=\"https:\/\/rmy9ct2fln.feishu.cn\/space\/api\/box\/stream\/download\/asynccode\/?code=M2I3MWQ5MjQyNTM5NjIyZTkyMjdlODgwMDg5NzIwYzJfSGVTUnVzb0I3bEREQXBkMEJGN0lqT0JBaEVUWEQwS05fVG9rZW46Vm9OMWJzYnNsbzRGR1R4YlJrNWNad1psblhjXzE3MzgyNDIwMzc6MTczODI0NTYzN19WNA\" alt=\"\"\/><\/figure>\n\n\n\n<h3 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Training_Objectives\"><\/span>Cele szkolenia<span class=\"ez-toc-section-end\"><\/span><\/h3>\n\n\n\n<p>Janus jest modelem autoregresyjnym wytrenowanym przy u\u017cyciu funkcji utraty entropii krzy\u017cowej, dla zada\u0144 rozumienia zwyk\u0142ego tekstu i rozumienia multimodalnego strata jest obliczana na sekwencji tekstu. W przypadku zada\u0144 generowania wizualnego strata jest obliczana tylko dla sekwencji obraz\u00f3w. Aby zachowa\u0107 prostot\u0119 projektu, do r\u00f3\u017cnych zada\u0144 nie s\u0105 przypisywane r\u00f3\u017cne wagi strat.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Reasoning\"><\/span>Uzasadnienie<span class=\"ez-toc-section-end\"><\/span><\/h3>\n\n\n\n<p>Korzystaj\u0105c z kolejnej metody przewidywania element\u00f3w leksykalnych, w przypadku rozumienia zwyk\u0142ego tekstu i rozumienia multimodalnego, elementy leksykalne s\u0105 pr\u00f3bkowane sekwencyjnie z rozk\u0142adu przewidywania. Do generowania obraz\u00f3w u\u017cywany jest bootstrap bez klasyfikatora.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Possible_extensions\"><\/span>Mo\u017cliwe rozszerzenia<span class=\"ez-toc-section-end\"><\/span><\/h3>\n\n\n\n<p>W przypadku rozumienia multimodalnego mo\u017cna 1) wybra\u0107 silniejszy koder wizualny i 2) zastosowa\u0107 dynamiczne techniki wysokiej rozdzielczo\u015bci;<\/p>\n\n\n\n<p>W przypadku generowania wizji mo\u017cna wybra\u0107 1) bardziej precyzyjne kodery, 2) wykorzystanie funkcji strat zaprojektowanych specjalnie do generowania wizji oraz 3) po\u0142\u0105czenie uwagi przyczynowej i metod r\u00f3wnoleg\u0142ych;<\/p>\n\n\n\n<p>Wi\u0119cej modalno\u015bci, z mo\u017cliwo\u015bci\u0105 integracji chmur punkt\u00f3w 3D, haptyki, EEG i innych danych wej\u015bciowych dla modalno\u015bci utraty;<\/p>\n\n\n\n<h2 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Janus-Pro_Upgrade\"><\/span><a href=\"https:\/\/huggingface.co\/deepseek-ai\/Janus-Pro-7B\" target=\"_blank\" rel=\"noreferrer noopener nofollow\">Aktualizacja Janus-Pro<\/a><span class=\"ez-toc-section-end\"><\/span><\/h2>\n\n\n\n<p>Z ograniczonymi danymi treningowymi i stosunkowo ma\u0142\u0105 pojemno\u015bci\u0105 modelu (1B), Janus jest wadliwy w niekt\u00f3rych aspektach, takich jak s\u0142aba reprezentacja generowania obrazu pod kr\u00f3tkimi wskaz\u00f3wkami i niesp\u00f3jna jako\u015b\u0107 generowania tekstu na obraz. Architektura Janus-Pro jest taka sama jak Janus, co mo\u017cna zobaczy\u0107 na poni\u017cszym rysunku:<\/p>\n\n\n\n<figure class=\"wp-block-image\"><img decoding=\"async\" src=\"https:\/\/rmy9ct2fln.feishu.cn\/space\/api\/box\/stream\/download\/asynccode\/?code=NDY0ZWM0NTJiOTNlYTE4MWI4NmMwNGE4Mjc3NmYyMDJfc1FEMHVOMHo1OUM0ZVhoakJtU1lZQXdZNTd4NVFXRzhfVG9rZW46RjJrTGI3VVlqb0IxS3N4aHVVN2NxUWxJbnZkXzE3MzgyNDIwMzc6MTczODI0NTYzN19WNA\" alt=\"\"\/><\/figure>\n\n\n\n<h3 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Main_Improvements\"><\/span>G\u0142\u00f3wne ulepszenia<span class=\"ez-toc-section-end\"><\/span><\/h3>\n\n\n\n<h4 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Training_Strategy\"><\/span>Strategia szkoleniowa<span class=\"ez-toc-section-end\"><\/span><\/h4>\n\n\n\n<p>Etap 1: Zwi\u0119kszenie liczby krok\u00f3w szkoleniowych i pe\u0142ne szkolenie na ImageNet;<\/p>\n\n\n\n<p>Etap 2: Nie u\u017cywaj ju\u017c ImageNet, bezpo\u015brednio u\u017cywaj zwyk\u0142ych danych tekstowo-obrazowych do szkolenia;<\/p>\n\n\n\n<p>Etap 3: Modyfikacja proporcji zestawu danych w procesie dostrajania poprzez zmian\u0119 proporcji danych multimodalnych, danych tekstowych i danych tekstowo-obrazowych z 7:3:10 na 5:1:4;<\/p>\n\n\n\n<h4 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Data_Scale\"><\/span>Skala danych<span class=\"ez-toc-section-end\"><\/span><\/h4>\n\n\n\n<p>Zrozumienie multimodalne<\/p>\n\n\n\n<p>Etap 2: Dodanie 90 milion\u00f3w pr\u00f3bek, w tym YFCC do podpisywania obraz\u00f3w i Doc-matrix do rozumienia dokument\u00f3w tabel i wykres\u00f3w;<\/p>\n\n\n\n<p>Etap 3: Dodanie dodatkowych zestaw\u00f3w danych DeepSeek-VL2, takich jak MEME understanding;<\/p>\n\n\n\n<p>Generowanie wizualne: dane ze \u015bwiata rzeczywistego mog\u0105 mie\u0107 nisk\u0105 jako\u015b\u0107, co skutkuje niestabilnym generowaniem tekstu na obraz i s\u0142ab\u0105 estetyk\u0105, Janus-Pro wykorzystuje 72 miliony pr\u00f3bek syntetycznych danych estetycznych, z jednolit\u0105 faz\u0105 wst\u0119pnego szkolenia (etap 2) w stosunku 1: 1 danych rzeczywistych do danych syntetycznych;<\/p>\n\n\n\n<h4 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Model_Scale\"><\/span>Skala modelu<span class=\"ez-toc-section-end\"><\/span><\/h4>\n\n\n\n<p>Skalowanie parametr\u00f3w modelu do skali 7 miliard\u00f3w parametr\u00f3w;<\/p>\n\n\n\n<h3 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Experimental_details\"><\/span>Szczeg\u00f3\u0142y eksperymentu<span class=\"ez-toc-section-end\"><\/span><\/h3>\n\n\n\n<p>W por\u00f3wnaniu do Janusa, szczeg\u00f3\u0142y eksperyment\u00f3w Janus-Pro s\u0105 w zasadzie takie same. Natomiast model o wi\u0119kszych parametrach wykorzystywa\u0142 wi\u0119cej w\u0119z\u0142\u00f3w klastra (od 16 do 32).<\/p>\n\n\n\n<figure class=\"wp-block-image\"><img decoding=\"async\" src=\"https:\/\/rmy9ct2fln.feishu.cn\/space\/api\/box\/stream\/download\/asynccode\/?code=NDM1YTM1ZDliNDUwYzAzNzg4MTNiNjUzYWZlZjVhZjhfZGI5ZWloREhYV29OZUxiaEVFc0dhN1dMTDhGdG5ZSnNfVG9rZW46STA0amJtbVlhb0NySk94NkRKNmNqNDVybmdiXzE3MzgyNDIwMzc6MTczODI0NTYzN19WNA\" alt=\"\"\/><\/figure>\n\n\n\n<p>Hiperparametry treningowe Janus-Pro<\/p>\n\n\n\n<h3 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Insufficient\"><\/span>Niewystarczaj\u0105ce<span class=\"ez-toc-section-end\"><\/span><\/h3>\n\n\n\n<p>W przypadku rozumienia multimodalnego rozdzielczo\u015b\u0107 wej\u015bciowa jest ograniczona do 384\u00d7384, co wp\u0142ywa na wydajno\u015b\u0107 drobnoziarnistych zada\u0144 wizualnych. W przypadku generowania tekstu na obraz niska rozdzielczo\u015b\u0107 skutkuje brakiem szczeg\u00f3\u0142\u00f3w w generowanych wynikach.<\/p>","protected":false},"excerpt":{"rendered":"<p>Przes\u0142anie na przysz\u0142o\u015b\u0107: Janus to prosty, ujednolicony i rozszerzalny multimodalny model rozumienia i generowania, kt\u00f3ry oddziela multimodalne rozumienie i generowane kodowanie wizualne, \u0142agodz\u0105c potencjalne konflikty mi\u0119dzy tymi dwoma zadaniami. W przysz\u0142o\u015bci mo\u017cna go rozszerzy\u0107 o dodatkowe modalno\u015bci wej\u015bciowe. Janus-Pro opiera si\u0119 na tym fundamencie, optymalizuj\u0105c strategi\u0119 treningow\u0105 (w tym zwi\u0119kszaj\u0105c...<\/p>","protected":false},"author":2,"featured_media":684,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_kadence_starter_templates_imported_post":false,"_kad_post_transparent":"","_kad_post_title":"","_kad_post_layout":"","_kad_post_sidebar_id":"","_kad_post_content_style":"","_kad_post_vertical_padding":"","_kad_post_feature":"","_kad_post_feature_position":"","_kad_post_header":false,"_kad_post_footer":false,"footnotes":""},"categories":[1],"tags":[],"class_list":["post-746","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-uncategorized"],"_links":{"self":[{"href":"https:\/\/janusai.pro\/pl\/wp-json\/wp\/v2\/posts\/746","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/janusai.pro\/pl\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/janusai.pro\/pl\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/janusai.pro\/pl\/wp-json\/wp\/v2\/users\/2"}],"replies":[{"embeddable":true,"href":"https:\/\/janusai.pro\/pl\/wp-json\/wp\/v2\/comments?post=746"}],"version-history":[{"count":1,"href":"https:\/\/janusai.pro\/pl\/wp-json\/wp\/v2\/posts\/746\/revisions"}],"predecessor-version":[{"id":747,"href":"https:\/\/janusai.pro\/pl\/wp-json\/wp\/v2\/posts\/746\/revisions\/747"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/janusai.pro\/pl\/wp-json\/wp\/v2\/media\/684"}],"wp:attachment":[{"href":"https:\/\/janusai.pro\/pl\/wp-json\/wp\/v2\/media?parent=746"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/janusai.pro\/pl\/wp-json\/wp\/v2\/categories?post=746"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/janusai.pro\/pl\/wp-json\/wp\/v2\/tags?post=746"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}