{"id":857,"date":"2025-02-04T16:45:13","date_gmt":"2025-02-04T16:45:13","guid":{"rendered":"https:\/\/janusai.pro\/?p=857"},"modified":"2025-02-04T16:45:15","modified_gmt":"2025-02-04T16:45:15","slug":"in-depth-analysis-what-innovations-does-deepseeks-newly-released-janus-pro-have","status":"publish","type":"post","link":"https:\/\/janusai.pro\/id\/in-depth-analysis-what-innovations-does-deepseeks-newly-released-janus-pro-have\/","title":{"rendered":"Analisis mendalam: Inovasi apa yang dimiliki oleh Janus-Pro yang baru saja dirilis oleh DeepSeek?"},"content":{"rendered":"<div style=\"margin-top: 0px; margin-bottom: 0px;\" class=\"sharethis-inline-share-buttons\" ><\/div>\n<p>DeepSeek telah memperbarui situs webnya.<\/p>\n\n\n\n<p>Pada dini hari di Malam Tahun Baru, DeepSeek tiba-tiba mengumumkan di GitHub bahwa ruang proyek Janus telah membuka sumber model dan laporan teknis Janus-Pro.<\/p>\n\n\n\n<p>Pertama, mari kita soroti beberapa poin penting:<\/p>\n\n\n\n<ol start=\"1\" class=\"wp-block-list\">\n<li>The <a href=\"https:\/\/huggingface.co\/deepseek-ai\/Janus-Pro-7B\" target=\"_blank\" rel=\"noreferrer noopener nofollow\">Model Janus-Pro<\/a> yang dirilis kali ini adalah model multimodal yang<strong> secara bersamaan dapat melakukan tugas pemahaman multimodal dan pembuatan gambar. Memiliki total dua versi parameter, <a href=\"https:\/\/huggingface.co\/deepseek-ai\/Janus-Pro-7B\" target=\"_blank\" rel=\"noreferrer noopener nofollow\">Janus-Pro-1B dan Janus-Pro-7B<\/a>.<\/strong><\/li>\n\n\n\n<li>Inovasi inti dari Janus-Pro adalah memisahkan<strong> pemahaman dan pembangkitan multimodal, dua tugas yang berbeda. Hal ini memungkinkan kedua tugas ini diselesaikan secara efisien dalam model yang sama<\/strong>.<\/li>\n\n\n\n<li>Janus-Pro konsisten dengan arsitektur model Janus yang dirilis oleh DeepSeek pada bulan Oktober lalu, tetapi pada saat itu Janus tidak memiliki banyak volume. Charles, seorang ahli algoritma di bidang penglihatan, mengatakan kepada kami bahwa Janus sebelumnya \"biasa saja\" dan \"tidak sebagus model bahasa DeepSeek\".<\/li>\n<\/ol>\n\n\n\n<figure class=\"wp-block-image\"><img loading=\"lazy\" decoding=\"async\" width=\"1870\" height=\"1804\" src=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/720ad345-4902-46e0-9185-bc4f887ed302.png\" alt=\"\" class=\"wp-image-859\" srcset=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/720ad345-4902-46e0-9185-bc4f887ed302.png 1870w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/720ad345-4902-46e0-9185-bc4f887ed302-300x289.png 300w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/720ad345-4902-46e0-9185-bc4f887ed302-1024x988.png 1024w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/720ad345-4902-46e0-9185-bc4f887ed302-768x741.png 768w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/720ad345-4902-46e0-9185-bc4f887ed302-1536x1482.png 1536w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/720ad345-4902-46e0-9185-bc4f887ed302-12x12.png 12w\" sizes=\"auto, (max-width: 1870px) 100vw, 1870px\" \/><\/figure>\n\n\n\n<div id=\"ez-toc-container\" class=\"ez-toc-v2_0_72 counter-hierarchy ez-toc-counter ez-toc-grey ez-toc-container-direction\">\n<div class=\"ez-toc-title-container\">\n<p class=\"ez-toc-title\" style=\"cursor:inherit\">Daftar Isi<\/p>\n<span class=\"ez-toc-title-toggle\"><a href=\"#\" class=\"ez-toc-pull-right ez-toc-btn ez-toc-btn-xs ez-toc-btn-default ez-toc-toggle\" aria-label=\"Beralih Daftar Isi\"><span class=\"ez-toc-js-icon-con\"><span class=\"\"><span class=\"eztoc-hide\" style=\"display:none;\">Beralih<\/span><span class=\"ez-toc-icon-toggle-span\"><svg style=\"fill: #999;color:#999\" xmlns=\"http:\/\/www.w3.org\/2000\/svg\" class=\"list-377408\" width=\"20px\" height=\"20px\" viewbox=\"0 0 24 24\" fill=\"none\"><path d=\"M6 6H4v2h2V6zm14 0H8v2h12V6zM4 11h2v2H4v-2zm16 0H8v2h12v-2zM4 16h2v2H4v-2zm16 0H8v2h12v-2z\" fill=\"currentColor\"><\/path><\/svg><svg style=\"fill: #999;color:#999\" class=\"arrow-unsorted-368013\" xmlns=\"http:\/\/www.w3.org\/2000\/svg\" width=\"10px\" height=\"10px\" viewbox=\"0 0 24 24\" version=\"1.2\" baseprofile=\"tiny\"><path d=\"M18.2 9.3l-6.2-6.3-6.2 6.3c-.2.2-.3.4-.3.7s.1.5.3.7c.2.2.4.3.7.3h11c.3 0 .5-.1.7-.3.2-.2.3-.5.3-.7s-.1-.5-.3-.7zM5.8 14.7l6.2 6.3 6.2-6.3c.2-.2.3-.5.3-.7s-.1-.5-.3-.7c-.2-.2-.4-.3-.7-.3h-11c-.3 0-.5.1-.7.3-.2.2-.3.5-.3.7s.1.5.3.7z\"\/><\/svg><\/span><\/span><\/span><\/a><\/span><\/div>\n<nav><ul class='ez-toc-list ez-toc-list-level-1' ><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-1\" href=\"https:\/\/janusai.pro\/id\/in-depth-analysis-what-innovations-does-deepseeks-newly-released-janus-pro-have\/#It_is_intended_to_solve_the_industrys_difficult_problem_balancing_multimodal_understanding_and_image_generation\" title=\"Hal ini dimaksudkan untuk memecahkan masalah yang sulit dalam industri ini: menyeimbangkan pemahaman multimodal dan pembuatan gambar\">Hal ini dimaksudkan untuk memecahkan masalah yang sulit dalam industri ini: menyeimbangkan pemahaman multimodal dan pembuatan gambar<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-2\" href=\"https:\/\/janusai.pro\/id\/in-depth-analysis-what-innovations-does-deepseeks-newly-released-janus-pro-have\/#Januss_decoupled_architecture_and_Janus-Pros_optimized_training_strategy\" title=\"Arsitektur terpisah Janus dan strategi pelatihan yang dioptimalkan Janus-Pro\">Arsitektur terpisah Janus dan strategi pelatihan yang dioptimalkan Janus-Pro<\/a><ul class='ez-toc-list-level-3' ><li class='ez-toc-heading-level-3'><a class=\"ez-toc-link ez-toc-heading-3\" href=\"https:\/\/janusai.pro\/id\/in-depth-analysis-what-innovations-does-deepseeks-newly-released-janus-pro-have\/#First_lets_look_at_the_parameters\" title=\"Pertama, mari kita cermati parameternya.\">Pertama, mari kita cermati parameternya.<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-3'><a class=\"ez-toc-link ez-toc-heading-4\" href=\"https:\/\/janusai.pro\/id\/in-depth-analysis-what-innovations-does-deepseeks-newly-released-janus-pro-have\/#There_is_also_the_training_strategy\" title=\"Ada juga strategi pelatihan.\">Ada juga strategi pelatihan.<\/a><ul class='ez-toc-list-level-4' ><li class='ez-toc-heading-level-4'><a class=\"ez-toc-link ez-toc-heading-5\" href=\"https:\/\/janusai.pro\/id\/in-depth-analysis-what-innovations-does-deepseeks-newly-released-janus-pro-have\/#Stage_I_%E2%80%93_Longer_training_time\" title=\"Tahap I - Waktu pelatihan yang lebih lama\">Tahap I - Waktu pelatihan yang lebih lama<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-4'><a class=\"ez-toc-link ez-toc-heading-6\" href=\"https:\/\/janusai.pro\/id\/in-depth-analysis-what-innovations-does-deepseeks-newly-released-janus-pro-have\/#Stage_II_%E2%80%93_Removing_ImageNet_data_and_adding_multi-modal_data\" title=\"Tahap II - Menghapus data ImageNet dan menambahkan data multi-modal\">Tahap II - Menghapus data ImageNet dan menambahkan data multi-modal<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-4'><a class=\"ez-toc-link ez-toc-heading-7\" href=\"https:\/\/janusai.pro\/id\/in-depth-analysis-what-innovations-does-deepseeks-newly-released-janus-pro-have\/#Stage_III_%E2%80%93_Optimizing_the_data_ratio\" title=\"Tahap III - Mengoptimalkan rasio data\">Tahap III - Mengoptimalkan rasio data<\/a><\/li><\/ul><\/li><li class='ez-toc-page-1 ez-toc-heading-level-3'><a class=\"ez-toc-link ez-toc-heading-8\" href=\"https:\/\/janusai.pro\/id\/in-depth-analysis-what-innovations-does-deepseeks-newly-released-janus-pro-have\/#Lets_look_at_the_training_data\" title=\"Mari kita lihat data pelatihan.\">Mari kita lihat data pelatihan.<\/a><ul class='ez-toc-list-level-4' ><li class='ez-toc-heading-level-4'><a class=\"ez-toc-link ez-toc-heading-9\" href=\"https:\/\/janusai.pro\/id\/in-depth-analysis-what-innovations-does-deepseeks-newly-released-janus-pro-have\/#Expansion_of_multimodal_understanding_data\" title=\"Perluasan data pemahaman multimodal:\">Perluasan data pemahaman multimodal:<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-4'><a class=\"ez-toc-link ez-toc-heading-10\" href=\"https:\/\/janusai.pro\/id\/in-depth-analysis-what-innovations-does-deepseeks-newly-released-janus-pro-have\/#Expansion_of_visual_generation_data\" title=\"Perluasan data generasi visual:\">Perluasan data generasi visual:<\/a><\/li><\/ul><\/li><\/ul><\/li><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-11\" href=\"https:\/\/janusai.pro\/id\/in-depth-analysis-what-innovations-does-deepseeks-newly-released-janus-pro-have\/#The_continuation_of_an_efficiency_revolution\" title=\"Kelanjutan dari revolusi efisiensi?\">Kelanjutan dari revolusi efisiensi?<\/a><\/li><\/ul><\/nav><\/div>\n<h2 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"It_is_intended_to_solve_the_industrys_difficult_problem_balancing_multimodal_understanding_and_image_generation\"><\/span><strong>Hal ini dimaksudkan untuk memecahkan masalah yang sulit dalam industri ini: menyeimbangkan pemahaman multimodal dan pembuatan gambar<\/strong><span class=\"ez-toc-section-end\"><\/span><\/h2>\n\n\n\n<p>Menurut perkenalan resmi DeepSeek, <a href=\"https:\/\/huggingface.co\/deepseek-ai\/Janus-Pro-7B\" target=\"_blank\" rel=\"noreferrer noopener nofollow\">Janus-Pro <\/a>tidak hanya dapat memahami gambar, mengekstrak dan memahami teks dalam gambar, tetapi juga menghasilkan gambar pada saat yang bersamaan.<\/p>\n\n\n\n<p>Laporan teknis menyebutkan bahwa dibandingkan dengan model lain dengan tipe dan urutan yang sama, skor Janus-Pro-7B pada perangkat uji GenEval dan DPG-Bench<strong> melebihi model lain seperti SD3-Medium dan DALL-E 3.<\/strong><\/p>\n\n\n\n<figure class=\"wp-block-image\"><img loading=\"lazy\" decoding=\"async\" width=\"1080\" height=\"1067\" src=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/a30e3dd3-b95c-4745-a4f7-8c5ace36af17.png\" alt=\"\" class=\"wp-image-862\" srcset=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/a30e3dd3-b95c-4745-a4f7-8c5ace36af17.png 1080w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/a30e3dd3-b95c-4745-a4f7-8c5ace36af17-300x296.png 300w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/a30e3dd3-b95c-4745-a4f7-8c5ace36af17-1024x1012.png 1024w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/a30e3dd3-b95c-4745-a4f7-8c5ace36af17-768x759.png 768w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/a30e3dd3-b95c-4745-a4f7-8c5ace36af17-12x12.png 12w\" sizes=\"auto, (max-width: 1080px) 100vw, 1080px\" \/><\/figure>\n\n\n\n<p>Pejabat tersebut juga memberikan contoh \ud83d\udc47:<\/p>\n\n\n\n<figure class=\"wp-block-image\"><img loading=\"lazy\" decoding=\"async\" width=\"1080\" height=\"1295\" src=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/a063e5ec-bc07-4129-8ded-0ab90001bbfe.png\" alt=\"\" class=\"wp-image-866\" srcset=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/a063e5ec-bc07-4129-8ded-0ab90001bbfe.png 1080w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/a063e5ec-bc07-4129-8ded-0ab90001bbfe-250x300.png 250w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/a063e5ec-bc07-4129-8ded-0ab90001bbfe-854x1024.png 854w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/a063e5ec-bc07-4129-8ded-0ab90001bbfe-768x921.png 768w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/a063e5ec-bc07-4129-8ded-0ab90001bbfe-10x12.png 10w\" sizes=\"auto, (max-width: 1080px) 100vw, 1080px\" \/><\/figure>\n\n\n\n<p>Banyak juga netizen di X yang mencoba fitur-fitur baru ini.<\/p>\n\n\n\n<figure class=\"wp-block-image\"><img loading=\"lazy\" decoding=\"async\" width=\"1080\" height=\"1429\" src=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/c5235f43-349a-47a2-ae9f-dc5491d88d61.png\" alt=\"\" class=\"wp-image-867\" srcset=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/c5235f43-349a-47a2-ae9f-dc5491d88d61.png 1080w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/c5235f43-349a-47a2-ae9f-dc5491d88d61-227x300.png 227w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/c5235f43-349a-47a2-ae9f-dc5491d88d61-774x1024.png 774w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/c5235f43-349a-47a2-ae9f-dc5491d88d61-768x1016.png 768w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/c5235f43-349a-47a2-ae9f-dc5491d88d61-9x12.png 9w\" sizes=\"auto, (max-width: 1080px) 100vw, 1080px\" \/><\/figure>\n\n\n\n<figure class=\"wp-block-image\"><img loading=\"lazy\" decoding=\"async\" width=\"1080\" height=\"1616\" src=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/61c76adf-1b00-4b38-8504-a47410160d3b.png\" alt=\"\" class=\"wp-image-869\" srcset=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/61c76adf-1b00-4b38-8504-a47410160d3b.png 1080w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/61c76adf-1b00-4b38-8504-a47410160d3b-200x300.png 200w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/61c76adf-1b00-4b38-8504-a47410160d3b-684x1024.png 684w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/61c76adf-1b00-4b38-8504-a47410160d3b-768x1149.png 768w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/61c76adf-1b00-4b38-8504-a47410160d3b-1027x1536.png 1027w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/61c76adf-1b00-4b38-8504-a47410160d3b-8x12.png 8w\" sizes=\"auto, (max-width: 1080px) 100vw, 1080px\" \/><\/figure>\n\n\n\n<p>Tetapi ada juga yang sesekali mengalami crash.<\/p>\n\n\n\n<p>Dengan membaca makalah teknis tentang <a href=\"https:\/\/www.deepseek.com\/\" target=\"_blank\" rel=\"noreferrer noopener nofollow\">DeepSeek<\/a>kami menemukan bahwa Janus Pro merupakan optimasi yang didasarkan pada Janus, yang dirilis tiga bulan yang lalu.<\/p>\n\n\n\n<p>Inovasi inti dari rangkaian model ini adalah untuk<strong> memisahkan tugas pemahaman visual dari tugas pembuatan visual, sehingga efek dari kedua tugas tersebut dapat diseimbangkan.<\/strong><\/p>\n\n\n\n<figure class=\"wp-block-image\"><img loading=\"lazy\" decoding=\"async\" width=\"1080\" height=\"538\" src=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/0fc71a9c-e23b-4ae9-976c-a4820124628e.png\" alt=\"\" class=\"wp-image-861\" srcset=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/0fc71a9c-e23b-4ae9-976c-a4820124628e.png 1080w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/0fc71a9c-e23b-4ae9-976c-a4820124628e-300x149.png 300w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/0fc71a9c-e23b-4ae9-976c-a4820124628e-1024x510.png 1024w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/0fc71a9c-e23b-4ae9-976c-a4820124628e-768x383.png 768w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/0fc71a9c-e23b-4ae9-976c-a4820124628e-18x9.png 18w\" sizes=\"auto, (max-width: 1080px) 100vw, 1080px\" \/><\/figure>\n\n\n\n<p>Tidak jarang sebuah model dapat melakukan pemahaman dan pembangkitan multimodal secara bersamaan. D-DiT dan TokenFlow-XL dalam rangkaian pengujian ini memiliki kemampuan ini.<\/p>\n\n\n\n<p>Namun, yang menjadi ciri khas dari Janus adalah<strong> dengan pemrosesan decoupling, sebuah model yang dapat melakukan pemahaman dan pembangkitan multimodal menyeimbangkan keefektifan kedua tugas tersebut.<\/strong><\/p>\n\n\n\n<p><strong>Menyeimbangkan efektivitas kedua tugas tersebut adalah masalah yang sulit dalam industri ini.<\/strong> Sebelumnya, pemikirannya adalah menggunakan encoder yang sama untuk mengimplementasikan pemahaman dan pembangkitan multimodal sebanyak mungkin.<\/p>\n\n\n\n<p>Keuntungan dari pendekatan ini adalah arsitektur yang sederhana, tidak ada penerapan yang berlebihan, dan keselarasan dengan model teks (yang juga menggunakan metode yang sama untuk mencapai pembuatan teks dan pemahaman teks). Argumen lainnya adalah bahwa perpaduan beberapa kemampuan ini dapat mengarah pada tingkat kemunculan tertentu.<\/p>\n\n\n\n<p>Namun demikian, pada kenyataannya, setelah memadukan pembuatan dan pemahaman, kedua tugas tersebut akan bertentangan - pemahaman gambar memerlukan model untuk mengabstraksikan dalam dimensi tinggi dan mengekstrak semantik inti gambar, yang bias ke arah makroskopis. Sebaliknya, pembangkitan gambar berfokus pada ekspresi dan pembangkitan detail lokal pada tingkat piksel.<\/p>\n\n\n\n<p>Praktik yang biasa dilakukan oleh industri ini adalah memprioritaskan kemampuan menghasilkan gambar. Hal ini menghasilkan model multimodal yang<strong> dapat menghasilkan gambar berkualitas lebih tinggi, tetapi hasil pemahaman gambar sering kali biasa-biasa saja.<\/strong><\/p>\n\n\n\n<h2 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Januss_decoupled_architecture_and_Janus-Pros_optimized_training_strategy\"><\/span><strong>Arsitektur terpisah Janus dan strategi pelatihan yang dioptimalkan Janus-Pro<\/strong><span class=\"ez-toc-section-end\"><\/span><\/h2>\n\n\n\n<p>Arsitektur terpisah Janus memungkinkan model untuk menyeimbangkan tugas memahami dan menghasilkan sendiri.<\/p>\n\n\n\n<p>Menurut hasil dalam laporan teknis resmi, apakah itu pemahaman multimodal atau pembangkitan gambar, Janus-Pro-7B berkinerja baik pada beberapa set pengujian.<\/p>\n\n\n\n<figure class=\"wp-block-image\"><img loading=\"lazy\" decoding=\"async\" width=\"1080\" height=\"976\" src=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/f280e5d6-7150-40d3-bf81-7e5e5b780129.png\" alt=\"\" class=\"wp-image-863\" srcset=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/f280e5d6-7150-40d3-bf81-7e5e5b780129.png 1080w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/f280e5d6-7150-40d3-bf81-7e5e5b780129-300x271.png 300w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/f280e5d6-7150-40d3-bf81-7e5e5b780129-1024x925.png 1024w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/f280e5d6-7150-40d3-bf81-7e5e5b780129-768x694.png 768w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/f280e5d6-7150-40d3-bf81-7e5e5b780129-13x12.png 13w\" sizes=\"auto, (max-width: 1080px) 100vw, 1080px\" \/><\/figure>\n\n\n\n<p><strong>Untuk pemahaman multimodal,<\/strong> Janus-Pro-7B meraih posisi pertama di empat dari tujuh set data evaluasi, dan posisi kedua di tiga set data lainnya, sedikit di belakang model yang berada di peringkat teratas.<\/p>\n\n\n\n<figure class=\"wp-block-image\"><img loading=\"lazy\" decoding=\"async\" width=\"1080\" height=\"1062\" src=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/782c767f-e8d3-4d5c-9e2d-638c102f7dff.png\" alt=\"\" class=\"wp-image-865\" srcset=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/782c767f-e8d3-4d5c-9e2d-638c102f7dff.png 1080w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/782c767f-e8d3-4d5c-9e2d-638c102f7dff-300x295.png 300w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/782c767f-e8d3-4d5c-9e2d-638c102f7dff-1024x1007.png 1024w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/782c767f-e8d3-4d5c-9e2d-638c102f7dff-768x755.png 768w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/782c767f-e8d3-4d5c-9e2d-638c102f7dff-12x12.png 12w\" sizes=\"auto, (max-width: 1080px) 100vw, 1080px\" \/><\/figure>\n\n\n\n<p><strong>Untuk menghasilkan gambar,<\/strong> Janus-Pro-7B meraih peringkat pertama dalam skor keseluruhan pada dataset evaluasi GenEval dan DPG-Bench.<\/p>\n\n\n\n<p>Efek multi-tasking ini terutama disebabkan oleh penggunaan dua penyandi visual untuk tugas yang berbeda pada seri Janus:<\/p>\n\n\n\n<ol start=\"1\" class=\"wp-block-list\">\n<li><strong>Memahami encoder:<\/strong> digunakan untuk mengekstrak fitur semantik dalam gambar untuk tugas pemahaman gambar (seperti pertanyaan dan jawaban gambar, klasifikasi visual, dll.).<\/li>\n\n\n\n<li><strong>Encoder generatif:<\/strong> mengonversi gambar menjadi representasi diskrit (misalnya, menggunakan encoder VQ) untuk tugas pembuatan teks-ke-gambar.<\/li>\n<\/ol>\n\n\n\n<p>Dengan arsitektur ini,<strong> model ini dapat secara independen mengoptimalkan kinerja setiap encoder, sehingga pemahaman multimodal dan tugas pembangkitan masing-masing dapat mencapai kinerja terbaiknya.<\/strong><\/p>\n\n\n\n<figure class=\"wp-block-image\"><img loading=\"lazy\" decoding=\"async\" width=\"1080\" height=\"565\" src=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/81defdea-eadb-4fc7-8395-4c365c44d502.png\" alt=\"\" class=\"wp-image-860\" srcset=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/81defdea-eadb-4fc7-8395-4c365c44d502.png 1080w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/81defdea-eadb-4fc7-8395-4c365c44d502-300x157.png 300w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/81defdea-eadb-4fc7-8395-4c365c44d502-1024x536.png 1024w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/81defdea-eadb-4fc7-8395-4c365c44d502-768x402.png 768w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/81defdea-eadb-4fc7-8395-4c365c44d502-18x9.png 18w\" sizes=\"auto, (max-width: 1080px) 100vw, 1080px\" \/><\/figure>\n\n\n\n<p><strong>Arsitektur terpisah ini adalah hal yang umum pada Janus-Pro dan Janus. Jadi, iterasi apa saja yang telah dilakukan Janus-Pro dalam beberapa bulan terakhir?<\/strong><\/p>\n\n\n\n<p>Seperti yang dapat dilihat dari hasil set evaluasi, rilis Janus-Pro-1B saat ini memiliki peningkatan sekitar 10% hingga 20% dalam skor set evaluasi yang berbeda dibandingkan dengan Janus sebelumnya. Janus-Pro-7B memiliki peningkatan tertinggi sekitar 45% dibandingkan dengan Janus setelah memperluas jumlah parameter.<\/p>\n\n\n\n<figure class=\"wp-block-image\"><img loading=\"lazy\" decoding=\"async\" width=\"1080\" height=\"185\" src=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/746d1d6f-9a07-4922-9b59-717614ef0738.png\" alt=\"\" class=\"wp-image-858\" srcset=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/746d1d6f-9a07-4922-9b59-717614ef0738.png 1080w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/746d1d6f-9a07-4922-9b59-717614ef0738-300x51.png 300w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/746d1d6f-9a07-4922-9b59-717614ef0738-1024x175.png 1024w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/746d1d6f-9a07-4922-9b59-717614ef0738-768x132.png 768w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/746d1d6f-9a07-4922-9b59-717614ef0738-18x3.png 18w\" sizes=\"auto, (max-width: 1080px) 100vw, 1080px\" \/><\/figure>\n\n\n\n<figure class=\"wp-block-image\"><img loading=\"lazy\" decoding=\"async\" width=\"1080\" height=\"430\" src=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/9361ef86-87ce-4f84-9cdd-71ef95a9f4b1.png\" alt=\"\" class=\"wp-image-864\" srcset=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/9361ef86-87ce-4f84-9cdd-71ef95a9f4b1.png 1080w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/9361ef86-87ce-4f84-9cdd-71ef95a9f4b1-300x119.png 300w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/9361ef86-87ce-4f84-9cdd-71ef95a9f4b1-1024x408.png 1024w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/9361ef86-87ce-4f84-9cdd-71ef95a9f4b1-768x306.png 768w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/9361ef86-87ce-4f84-9cdd-71ef95a9f4b1-18x7.png 18w\" sizes=\"auto, (max-width: 1080px) 100vw, 1080px\" \/><\/figure>\n\n\n\n<p>Dalam hal detail pelatihan, laporan teknis menyatakan bahwa rilis Janus-Pro saat ini, dibandingkan dengan model Janus sebelumnya, mempertahankan desain arsitektur inti yang terpisah, dan juga mengulang pada<strong> ukuran parameter, strategi pelatihan, dan data pelatihan.<\/strong><\/p>\n\n\n\n<h3 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"First_lets_look_at_the_parameters\"><\/span><strong>Pertama, mari kita lihat parameternya<\/strong>.<span class=\"ez-toc-section-end\"><\/span><\/h3>\n\n\n\n<p>Versi pertama Janus hanya memiliki parameter 1,3B, dan rilis Pro saat ini menyertakan model dengan parameter 1B dan 7B.<\/p>\n\n\n\n<p>Kedua ukuran ini mencerminkan skalabilitas arsitektur Janus. Model 1B, yang paling ringan, telah digunakan oleh pengguna eksternal untuk berjalan di browser menggunakan WebGPU.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"There_is_also_the_training_strategy\"><\/span><strong>Ada juga <\/strong><strong>yang<\/strong><strong> strategi pelatihan.<\/strong><span class=\"ez-toc-section-end\"><\/span><\/h3>\n\n\n\n<p>Sejalan dengan pembagian fase pelatihan Janus, Janus Pro memiliki total tiga fase pelatihan, dan makalah ini secara langsung membaginya menjadi Tahap I, Tahap II, dan Tahap III.<\/p>\n\n\n\n<p>Dengan tetap mempertahankan ide dasar pelatihan dan tujuan pelatihan dari setiap tahap, Janus-Pro telah melakukan perbaikan pada durasi pelatihan dan data pelatihan dalam ketiga tahap tersebut. Berikut ini adalah perbaikan spesifik dalam ketiga tahap tersebut:<\/p>\n\n\n\n<h4 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Stage_I_%E2%80%93_Longer_training_time\"><\/span><strong>Tahap I - Waktu pelatihan yang lebih lama<\/strong><span class=\"ez-toc-section-end\"><\/span><\/h4>\n\n\n\n<p>Dibandingkan dengan Janus, Janus-Pro telah memperpanjang waktu pelatihan pada Tahap I, khususnya dalam pelatihan adaptor dan kepala gambar di bagian visual. Ini berarti, bahwa pembelajaran fitur visual telah diberikan lebih banyak waktu pelatihan, dan diharapkan model dapat sepenuhnya memahami fitur detail gambar (seperti pemetaan piksel-ke-semantik).<\/p>\n\n\n\n<p>Pelatihan yang diperpanjang ini membantu memastikan bahwa pelatihan bagian visual tidak terganggu oleh modul lainnya.<\/p>\n\n\n\n<h4 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Stage_II_%E2%80%93_Removing_ImageNet_data_and_adding_multi-modal_data\"><\/span><strong>Tahap II - Menghapus data ImageNet dan menambahkan data multi-modal<\/strong><span class=\"ez-toc-section-end\"><\/span><\/h4>\n\n\n\n<p>Pada Tahap II, Janus sebelumnya mereferensikan PixArt dan dilatih dalam dua bagian. Bagian pertama dilatih menggunakan kumpulan data ImageNet untuk tugas klasifikasi gambar, dan bagian kedua dilatih menggunakan data teks-ke-gambar biasa. Sekitar dua pertiga dari waktu di Tahap II dihabiskan untuk melatih bagian pertama.<\/p>\n\n\n\n<p>Janus-Pro menghapus pelatihan ImageNet di Tahap II. Desain ini memungkinkan model untuk fokus pada data teks-ke-gambar selama pelatihan Tahap II. Menurut hasil eksperimen, hal ini dapat secara signifikan meningkatkan pemanfaatan data teks-ke-gambar.<\/p>\n\n\n\n<p>Selain penyesuaian desain metode pelatihan, set data pelatihan yang digunakan pada Tahap II tidak lagi terbatas pada tugas klasifikasi gambar tunggal, tetapi juga mencakup lebih banyak jenis data multimodal lainnya, seperti deskripsi gambar dan dialog, untuk pelatihan bersama.<\/p>\n\n\n\n<h4 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Stage_III_%E2%80%93_Optimizing_the_data_ratio\"><\/span><strong>Tahap III - Mengoptimalkan rasio data<\/strong><span class=\"ez-toc-section-end\"><\/span><\/h4>\n\n\n\n<p>Pada pelatihan Tahap III, Janus-Pro menyesuaikan rasio berbagai jenis data pelatihan.<\/p>\n\n\n\n<p>Sebelumnya, rasio data pemahaman multimodal, data teks biasa, dan data teks-ke-gambar dalam data pelatihan yang digunakan oleh Janus pada Tahap III adalah 7:3:10. Janus-Pro mengurangi rasio dua jenis data terakhir dan menyesuaikan rasio ketiga jenis data tersebut menjadi 5:1:4, yaitu lebih memperhatikan tugas pemahaman multimodal.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Lets_look_at_the_training_data\"><\/span><strong>Mari kita lihat data pelatihan.<\/strong><span class=\"ez-toc-section-end\"><\/span><\/h3>\n\n\n\n<p>Dibandingkan dengan Janus, Janus-Pro kali ini secara signifikan meningkatkan jumlah kualitas tinggi<strong> data sintetis.<\/strong><\/p>\n\n\n\n<p>Ini memperluas jumlah dan variasi data pelatihan untuk pemahaman multimodal dan pembuatan gambar.<\/p>\n\n\n\n<h4 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Expansion_of_multimodal_understanding_data\"><\/span><strong>Perluasan data pemahaman multimodal:<\/strong><span class=\"ez-toc-section-end\"><\/span><\/h4>\n\n\n\n<p>Janus-Pro mengacu pada dataset DeepSeek-VL2 selama pelatihan dan menambahkan sekitar 90 juta titik data tambahan, termasuk tidak hanya dataset deskripsi gambar, tetapi juga dataset adegan yang kompleks seperti tabel, bagan, dan dokumen.<\/p>\n\n\n\n<p>Selama tahap penyempurnaan yang diawasi (Tahap III), terus menambahkan set data yang terkait dengan pemahaman MEME dan peningkatan pengalaman dialog (termasuk dialog bahasa Mandarin).<\/p>\n\n\n\n<h4 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Expansion_of_visual_generation_data\"><\/span><strong>Perluasan data generasi visual:<\/strong><span class=\"ez-toc-section-end\"><\/span><\/h4>\n\n\n\n<p>Data asli dunia nyata memiliki kualitas yang buruk dan tingkat noise yang tinggi, yang menyebabkan model menghasilkan output yang tidak stabil dan gambar dengan kualitas estetika yang tidak memadai dalam tugas teks-ke-gambar.<\/p>\n\n\n\n<p>Janus-Pro menambahkan sekitar 72 juta data sintetis estetika tinggi yang baru ke dalam fase pelatihan, sehingga rasio data nyata dan data sintetis pada fase pra-pelatihan menjadi 1:1.<\/p>\n\n\n\n<p>Petunjuk untuk data sintetis semuanya diambil dari sumber daya publik. Eksperimen telah menunjukkan bahwa penambahan data ini membuat model lebih cepat menyatu, dan gambar yang dihasilkan memiliki peningkatan yang nyata dalam stabilitas dan keindahan visual.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"The_continuation_of_an_efficiency_revolution\"><\/span>Kelanjutan dari revolusi efisiensi?<span class=\"ez-toc-section-end\"><\/span><\/h2>\n\n\n\n<p>Secara keseluruhan, dengan rilis ini, DeepSeek telah membawa revolusi efisiensi ke model visual.<\/p>\n\n\n\n<p>Tidak seperti model visual yang berfokus pada fungsi tunggal atau model multimodal yang mendukung tugas tertentu, Janus-Pro menyeimbangkan efek dari dua tugas utama, yaitu pembuatan gambar dan pemahaman multimodal dalam model yang sama.<\/p>\n\n\n\n<p>Selain itu, meskipun parameternya kecil, namun mampu mengalahkanOpenAI DALL-E 3 dan SD3-Medium dalam evaluasi.<\/p>\n\n\n\n<p>Diperluas ke lapangan, perusahaan hanya perlu menggunakan model untuk secara langsung mengimplementasikan dua fungsi pembuatan dan pemahaman gambar. Ditambah dengan ukuran yang hanya 7B, kesulitan dan biaya penerapan menjadi jauh lebih rendah.<\/p>\n\n\n\n<p>Sehubungan dengan rilis R1 dan V3 sebelumnya, DeepSeek menantang aturan main yang ada dengan<strong> \"inovasi arsitektur yang ringkas, model yang ringan, model sumber terbuka, dan biaya pelatihan yang sangat rendah\"<\/strong>. Inilah alasan kepanikan di antara raksasa teknologi Barat dan bahkan Wall Street.<\/p>\n\n\n\n<p>Baru saja, Sam Altman, yang selama beberapa hari ini terseret oleh opini publik, akhirnya merespon positif informasi mengenai DeepSeek di X. Sembari memuji R1, ia mengatakan bahwa OpenAI akan membuat beberapa pengumuman.<\/p>\n\n\n\n<figure class=\"wp-block-image\"><img loading=\"lazy\" decoding=\"async\" width=\"1051\" height=\"1280\" src=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/ade0e532-b451-4eff-832f-dcf20cff8f64.png\" alt=\"\" class=\"wp-image-868\" srcset=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/ade0e532-b451-4eff-832f-dcf20cff8f64.png 1051w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/ade0e532-b451-4eff-832f-dcf20cff8f64-246x300.png 246w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/ade0e532-b451-4eff-832f-dcf20cff8f64-841x1024.png 841w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/ade0e532-b451-4eff-832f-dcf20cff8f64-768x935.png 768w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/ade0e532-b451-4eff-832f-dcf20cff8f64-10x12.png 10w\" sizes=\"auto, (max-width: 1051px) 100vw, 1051px\" \/><\/figure>","protected":false},"excerpt":{"rendered":"<p>DeepSeek telah memperbarui situs webnya. Pada dini hari di Malam Tahun Baru, DeepSeek tiba-tiba mengumumkan di GitHub bahwa ruang proyek Janus telah membuka sumber model Janus-Pro dan laporan teknis. Pertama, mari kita soroti beberapa poin penting: Hal ini dimaksudkan untuk memecahkan masalah sulit di industri ini: menyeimbangkan pemahaman multimodal dan pembuatan gambar Menurut ...<\/p>","protected":false},"author":2,"featured_media":704,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_kadence_starter_templates_imported_post":false,"_kad_post_transparent":"","_kad_post_title":"","_kad_post_layout":"","_kad_post_sidebar_id":"","_kad_post_content_style":"","_kad_post_vertical_padding":"","_kad_post_feature":"","_kad_post_feature_position":"","_kad_post_header":false,"_kad_post_footer":false,"footnotes":""},"categories":[1],"tags":[],"class_list":["post-857","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-uncategorized"],"_links":{"self":[{"href":"https:\/\/janusai.pro\/id\/wp-json\/wp\/v2\/posts\/857","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/janusai.pro\/id\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/janusai.pro\/id\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/janusai.pro\/id\/wp-json\/wp\/v2\/users\/2"}],"replies":[{"embeddable":true,"href":"https:\/\/janusai.pro\/id\/wp-json\/wp\/v2\/comments?post=857"}],"version-history":[{"count":1,"href":"https:\/\/janusai.pro\/id\/wp-json\/wp\/v2\/posts\/857\/revisions"}],"predecessor-version":[{"id":870,"href":"https:\/\/janusai.pro\/id\/wp-json\/wp\/v2\/posts\/857\/revisions\/870"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/janusai.pro\/id\/wp-json\/wp\/v2\/media\/704"}],"wp:attachment":[{"href":"https:\/\/janusai.pro\/id\/wp-json\/wp\/v2\/media?parent=857"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/janusai.pro\/id\/wp-json\/wp\/v2\/categories?post=857"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/janusai.pro\/id\/wp-json\/wp\/v2\/tags?post=857"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}