{"id":906,"date":"2025-07-06T05:28:51","date_gmt":"2025-07-06T05:28:51","guid":{"rendered":"https:\/\/janusai.pro\/?p=906"},"modified":"2025-07-06T05:28:52","modified_gmt":"2025-07-06T05:28:52","slug":"janus-4o-sharegpt-4o-image","status":"publish","type":"post","link":"https:\/\/janusai.pro\/id\/janus-4o-sharegpt-4o-image\/","title":{"rendered":"Bintang Baru Pembuatan Citra Multimoda: Janus-4o? ShareGPT-4o-Image Menetapkan Standar Baru untuk Kumpulan Data, Menyelaraskan Pembuatan Citra dengan GPT-4o."},"content":{"rendered":"<div style=\"margin-top: 0px; margin-bottom: 0px;\" class=\"sharethis-inline-share-buttons\" ><\/div>\n<p><a href=\"https:\/\/sharegpt4o.github.io\/\" target=\"_blank\" rel=\"noreferrer noopener nofollow\">BagikanGPT-4o-Image<\/a> adalah kumpulan data pembangkitan gambar berskala besar dan berkualitas tinggi yang semua gambarnya dihasilkan menggunakan kemampuan pembangkitan gambar GPT-4o.<\/p>\n\n\n\n<p>Kumpulan data ini bertujuan untuk menggabungkan keunggulan model multimoda sumber terbuka dengan kekuatan GPT-4o dalam pembuatan konten visual. <\/p>\n\n\n\n<p>Meliputi 45.000 contoh teks ke gambar dan 46.000 contoh gambar ke teks, menjadikannya sumber daya praktis untuk meningkatkan model multimoda dalam tugas pembuatan dan penyuntingan gambar.<\/p>\n\n\n\n<figure class=\"wp-block-image\"><img loading=\"lazy\" decoding=\"async\" width=\"998\" height=\"700\" src=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/07\/f48c8349-9310-48a1-9276-d7614aa958d9.png\" alt=\"\" class=\"wp-image-911\" srcset=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/07\/f48c8349-9310-48a1-9276-d7614aa958d9.png 998w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/07\/f48c8349-9310-48a1-9276-d7614aa958d9-300x210.png 300w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/07\/f48c8349-9310-48a1-9276-d7614aa958d9-768x539.png 768w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/07\/f48c8349-9310-48a1-9276-d7614aa958d9-18x12.png 18w\" sizes=\"auto, (max-width: 998px) 100vw, 998px\" \/><\/figure>\n\n\n\n<p>Janus-4o adalah LLM multimoda yang mampu melakukan konversi teks ke gambar dan konversi teks+gambar ke gambar. LLM ini berbasis pada Janus-Pro dan disempurnakan menggunakan kumpulan data ShareGPT-4o-Image. Dibandingkan dengan Janus-Pro, Janus-4o memperkenalkan kemampuan konversi teks+gambar ke gambar dan mencapai peningkatan signifikan dalam konversi teks ke gambar.<\/p>\n\n\n\n<div id=\"ez-toc-container\" class=\"ez-toc-v2_0_82_2 counter-hierarchy ez-toc-counter ez-toc-grey ez-toc-container-direction\">\n<div class=\"ez-toc-title-container\">\n<p class=\"ez-toc-title\" style=\"cursor:inherit\">Daftar Isi<\/p>\n<span class=\"ez-toc-title-toggle\"><a href=\"#\" class=\"ez-toc-pull-right ez-toc-btn ez-toc-btn-xs ez-toc-btn-default ez-toc-toggle\" aria-label=\"Beralih Daftar Isi\"><span class=\"ez-toc-js-icon-con\"><span class=\"\"><span class=\"eztoc-hide\" style=\"display:none;\">Beralih<\/span><span class=\"ez-toc-icon-toggle-span\"><svg style=\"fill: #999;color:#999\" xmlns=\"http:\/\/www.w3.org\/2000\/svg\" class=\"list-377408\" width=\"20px\" height=\"20px\" viewbox=\"0 0 24 24\" fill=\"none\"><path d=\"M6 6H4v2h2V6zm14 0H8v2h12V6zM4 11h2v2H4v-2zm16 0H8v2h12v-2zM4 16h2v2H4v-2zm16 0H8v2h12v-2z\" fill=\"currentColor\"><\/path><\/svg><svg style=\"fill: #999;color:#999\" class=\"arrow-unsorted-368013\" xmlns=\"http:\/\/www.w3.org\/2000\/svg\" width=\"10px\" height=\"10px\" viewbox=\"0 0 24 24\" version=\"1.2\" baseprofile=\"tiny\"><path d=\"M18.2 9.3l-6.2-6.3-6.2 6.3c-.2.2-.3.4-.3.7s.1.5.3.7c.2.2.4.3.7.3h11c.3 0 .5-.1.7-.3.2-.2.3-.5.3-.7s-.1-.5-.3-.7zM5.8 14.7l6.2 6.3 6.2-6.3c.2-.2.3-.5.3-.7s-.1-.5-.3-.7c-.2-.2-.4-.3-.7-.3h-11c-.3 0-.5.1-.7.3-.2.2-.3.5-.3.7s.1.5.3.7z\"\/><\/svg><\/span><\/span><\/span><\/a><\/span><\/div>\n<nav><ul class='ez-toc-list ez-toc-list-level-1' ><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-1\" href=\"https:\/\/janusai.pro\/id\/janus-4o-sharegpt-4o-image\/#Dataset_Overview\" >Ikhtisar Kumpulan Data<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-2\" href=\"https:\/\/janusai.pro\/id\/janus-4o-sharegpt-4o-image\/#Related_Links\" >Tautan Terkait<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-3\" href=\"https:\/\/janusai.pro\/id\/janus-4o-sharegpt-4o-image\/#Paper_Introduction\" >Pendahuluan Makalah<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-4\" href=\"https:\/\/janusai.pro\/id\/janus-4o-sharegpt-4o-image\/#Method_Overview\" >Tinjauan Metode<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-5\" href=\"https:\/\/janusai.pro\/id\/janus-4o-sharegpt-4o-image\/#Experimental_Results\" >Hasil Eksperimen<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-6\" href=\"https:\/\/janusai.pro\/id\/janus-4o-sharegpt-4o-image\/#Conclusions\" >Kesimpulan<\/a><\/li><\/ul><\/nav><\/div>\n<h2 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Dataset_Overview\"><\/span>Ikhtisar Kumpulan Data<span class=\"ez-toc-section-end\"><\/span><\/h2>\n\n\n\n<p>Dataset ShareGPT-4o-Image berisi 91.000 sampel pembuatan gambar GPT-4o, dikategorikan sebagai berikut:<\/p>\n\n\n\n<ul class=\"wp-block-list\">\n<li>Teks ke gambar: 45.717<\/li>\n\n\n\n<li>Teks-plus-gambar-ke-gambar: 46.539<\/li>\n<\/ul>\n\n\n\n<h2 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Related_Links\"><\/span>Tautan Terkait<span class=\"ez-toc-section-end\"><\/span><\/h2>\n\n\n\n<p>Kode: <a href=\"https:\/\/github.com\/FreedomIntelligence\/ShareGPT-4o-Image\" target=\"_blank\" rel=\"noreferrer noopener nofollow\">github klik disini<\/a><\/p>\n\n\n\n<p>Model: <a href=\"https:\/\/huggingface.co\/FreedomIntelligence\/Janus-4o-7B\" target=\"_blank\" rel=\"noreferrer noopener nofollow\">dapatkan model ShareGPT-4o-Image<\/a><\/p>\n\n\n\n<p>Kertas: <a href=\"https:\/\/arxiv.org\/pdf\/2506.18095\" target=\"_blank\" rel=\"noreferrer noopener nofollow\">klik di sini<\/a><\/p>\n\n\n\n<h2 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Paper_Introduction\"><\/span>Pendahuluan Makalah<span class=\"ez-toc-section-end\"><\/span><\/h2>\n\n\n\n<p>Kemajuan terkini dalam model pembangkitan multimoda telah membuka peluang pembangkitan gambar yang realistis dan sesuai instruksi. Namun, sistem terkemuka seperti GPT-4o-Image masih bersifat hak milik dan tidak dapat diakses.<\/p>\n\n\n\n<p>Agar kemampuan ini dapat diakses publik, makalah ini memperkenalkan ShareGPT-4o-Image, kumpulan data pertama yang berisi 45.000 contoh teks-ke-gambar dan 46.000 contoh teks-ditambah-gambar-ke-gambar, semuanya disintesis menggunakan kemampuan pembuatan gambar GPT-4o untuk menyempurnakan kemampuan pembuatan gambar tingkat lanjutnya. Dengan menggunakan kumpulan data ini, makalah ini mengembangkan Janus-4o, model bahasa besar multimoda yang mampu melakukan pembuatan teks-ke-gambar dan teks-ditambah-gambar-ke-gambar.<\/p>\n\n\n\n<p>Janus-4o tidak hanya meningkatkan kemampuan pembuatan teks menjadi gambar secara signifikan dibandingkan pendahulunya Janus-Pro, tetapi juga memperkenalkan kemampuan pembuatan teks plus gambar menjadi gambar. Khususnya, ia mencapai kinerja yang mengesankan dalam menghasilkan gambar dari teks dan gambar dari awal hanya dengan menggunakan 91 ribu sampel sintetis dan dilatih selama 6 jam pada mesin GPU 8\u00d7A800.<\/p>\n\n\n\n<p>Kami berharap peluncuran ShareGPT-4o-Image dan Janus-4o akan mendorong penelitian terbuka dalam pembuatan gambar yang fotorealistis dan selaras dengan instruksi.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Method_Overview\"><\/span>Tinjauan Metode<span class=\"ez-toc-section-end\"><\/span><\/h2>\n\n\n\n<figure class=\"wp-block-image\"><img loading=\"lazy\" decoding=\"async\" width=\"1028\" height=\"718\" src=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/07\/74bd55e5-5cc6-49e8-be21-cf5c4a66042d.png\" alt=\"\" class=\"wp-image-908\" srcset=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/07\/74bd55e5-5cc6-49e8-be21-cf5c4a66042d.png 1028w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/07\/74bd55e5-5cc6-49e8-be21-cf5c4a66042d-300x210.png 300w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/07\/74bd55e5-5cc6-49e8-be21-cf5c4a66042d-1024x715.png 1024w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/07\/74bd55e5-5cc6-49e8-be21-cf5c4a66042d-768x536.png 768w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/07\/74bd55e5-5cc6-49e8-be21-cf5c4a66042d-18x12.png 18w\" sizes=\"auto, (max-width: 1028px) 100vw, 1028px\" \/><\/figure>\n\n\n\n<p><strong>ShareGPT-4o-Image meningkatkan kinerja pembuatan gambar.<\/strong> Dengan menyempurnakan Janus-Pro dengan ShareGPT-4o-Image, kami menghasilkan Janus-4o, yang menunjukkan peningkatan kinerja pembuatan gambar secara signifikan. Janus-4o juga mendukung pembuatan teks ke gambar dan gambar ke gambar, mengungguli tolok ukur lain dengan hanya 91.000 sampel pelatihan.<\/p>\n\n\n\n<figure class=\"wp-block-image\"><img loading=\"lazy\" decoding=\"async\" width=\"1024\" height=\"370\" src=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/07\/fc3b163f-d1d2-42f5-81bc-884eb677ea52.png\" alt=\"\" class=\"wp-image-910\" srcset=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/07\/fc3b163f-d1d2-42f5-81bc-884eb677ea52.png 1024w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/07\/fc3b163f-d1d2-42f5-81bc-884eb677ea52-300x108.png 300w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/07\/fc3b163f-d1d2-42f5-81bc-884eb677ea52-768x278.png 768w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/07\/fc3b163f-d1d2-42f5-81bc-884eb677ea52-18x7.png 18w\" sizes=\"auto, (max-width: 1024px) 100vw, 1024px\" \/><\/figure>\n\n\n\n<p><strong>Ikhtisar Model Janus-4o.<\/strong> Model ini didasarkan pada Janus-Pro dan dibangun dengan menyempurnakannya pada ShareGPT-4o-Image. Model ini menggabungkan penyempurnaan untuk mendukung pembuatan teks ke gambar dan gambar ke gambar. Tugas teks ke gambar dan teks ke gambar dilatih secara bersamaan.<\/p>\n\n\n\n<figure class=\"wp-block-image\"><img loading=\"lazy\" decoding=\"async\" width=\"1058\" height=\"304\" src=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/07\/2b81408d-3c8b-45a8-ac73-ee0a48164c05.png\" alt=\"\" class=\"wp-image-909\" srcset=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/07\/2b81408d-3c8b-45a8-ac73-ee0a48164c05.png 1058w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/07\/2b81408d-3c8b-45a8-ac73-ee0a48164c05-300x86.png 300w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/07\/2b81408d-3c8b-45a8-ac73-ee0a48164c05-1024x294.png 1024w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/07\/2b81408d-3c8b-45a8-ac73-ee0a48164c05-768x221.png 768w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/07\/2b81408d-3c8b-45a8-ac73-ee0a48164c05-18x5.png 18w\" sizes=\"auto, (max-width: 1058px) 100vw, 1058px\" \/><\/figure>\n\n\n\n<h2 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Experimental_Results\"><\/span>Hasil Eksperimen<span class=\"ez-toc-section-end\"><\/span><\/h2>\n\n\n\n<figure class=\"wp-block-image\"><img loading=\"lazy\" decoding=\"async\" width=\"1072\" height=\"1140\" src=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/07\/72720ada-7418-4979-a8fd-4ce09050d696.png\" alt=\"\" class=\"wp-image-907\" srcset=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/07\/72720ada-7418-4979-a8fd-4ce09050d696.png 1072w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/07\/72720ada-7418-4979-a8fd-4ce09050d696-282x300.png 282w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/07\/72720ada-7418-4979-a8fd-4ce09050d696-963x1024.png 963w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/07\/72720ada-7418-4979-a8fd-4ce09050d696-768x817.png 768w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/07\/72720ada-7418-4979-a8fd-4ce09050d696-11x12.png 11w\" sizes=\"auto, (max-width: 1072px) 100vw, 1072px\" \/><\/figure>\n\n\n\n<h2 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Conclusions\"><\/span>Kesimpulan<span class=\"ez-toc-section-end\"><\/span><\/h2>\n\n\n\n<p>ShareGPT-4o-Image merupakan kumpulan data berskala besar pertama yang mampu menangkap kemampuan pembuatan gambar canggih GPT-4o dalam pembuatan teks ke gambar dan teks ke gambar. Berdasarkan kumpulan data ini, makalah ini mengembangkan Janus-4o, sebuah model pembelajaran mesin (MLLM) yang mampu menghasilkan gambar berkualitas tinggi dari teks murni atau kombinasi gambar-teks.<\/p>\n\n\n\n<p>Janus-4o mencapai peningkatan signifikan dalam pembuatan teks-ke-gambar dan mencapai hasil yang sangat kompetitif dalam tugas teks-ke-gambar, yang menunjukkan kualitas tinggi dan kepraktisan ShareGPT-4o-Image.<\/p>\n\n\n\n<p>Berkat efisiensi pembuatan gambar regresif mandiri berdasarkan MLLM, Janus-4o dapat dilatih hanya dalam 6 jam pada mesin GPU 8\u00d7A800 dan mencapai peningkatan kinerja yang signifikan dengan persyaratan komputasi yang sangat rendah.<\/p>","protected":false},"excerpt":{"rendered":"<p>ShareGPT-4o-Image adalah kumpulan data pembuatan gambar berskala besar dan berkualitas tinggi, yang mana semua gambar dibuat menggunakan kemampuan pembuatan gambar GPT-4o. Kumpulan data ini bertujuan untuk menggabungkan keunggulan model multimoda sumber terbuka dengan kekuatan GPT-4o dalam pembuatan konten visual. Kumpulan data ini mencakup 45.000 sampel teks-ke-gambar dan 46.000 sampel gambar-ke-teks, yang menjadikannya sumber daya praktis untuk meningkatkan model multimoda dalam gambar\u2026<\/p>","protected":false},"author":2,"featured_media":859,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_kadence_starter_templates_imported_post":false,"_kad_post_transparent":"","_kad_post_title":"","_kad_post_layout":"","_kad_post_sidebar_id":"","_kad_post_content_style":"","_kad_post_vertical_padding":"","_kad_post_feature":"","_kad_post_feature_position":"","_kad_post_header":false,"_kad_post_footer":false,"footnotes":""},"categories":[1],"tags":[],"class_list":["post-906","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-uncategorized"],"_links":{"self":[{"href":"https:\/\/janusai.pro\/id\/wp-json\/wp\/v2\/posts\/906","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/janusai.pro\/id\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/janusai.pro\/id\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/janusai.pro\/id\/wp-json\/wp\/v2\/users\/2"}],"replies":[{"embeddable":true,"href":"https:\/\/janusai.pro\/id\/wp-json\/wp\/v2\/comments?post=906"}],"version-history":[{"count":1,"href":"https:\/\/janusai.pro\/id\/wp-json\/wp\/v2\/posts\/906\/revisions"}],"predecessor-version":[{"id":912,"href":"https:\/\/janusai.pro\/id\/wp-json\/wp\/v2\/posts\/906\/revisions\/912"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/janusai.pro\/id\/wp-json\/wp\/v2\/media\/859"}],"wp:attachment":[{"href":"https:\/\/janusai.pro\/id\/wp-json\/wp\/v2\/media?parent=906"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/janusai.pro\/id\/wp-json\/wp\/v2\/categories?post=906"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/janusai.pro\/id\/wp-json\/wp\/v2\/tags?post=906"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}