{"id":906,"date":"2025-07-06T05:28:51","date_gmt":"2025-07-06T05:28:51","guid":{"rendered":"https:\/\/janusai.pro\/?p=906"},"modified":"2025-07-06T05:28:52","modified_gmt":"2025-07-06T05:28:52","slug":"janus-4o-sharegpt-4o-image","status":"publish","type":"post","link":"https:\/\/janusai.pro\/fr\/janus-4o-sharegpt-4o-image\/","title":{"rendered":"La nouvelle star de la g\u00e9n\u00e9ration d&#039;images multimodales\u00a0: Janus-4o\u00a0? Partager\u00a0: GPT-4o-Image \u00e9tablit une nouvelle norme pour les jeux de donn\u00e9es, en alignant la g\u00e9n\u00e9ration d&#039;images sur GPT-4o."},"content":{"rendered":"<div style=\"margin-top: 0px; margin-bottom: 0px;\" class=\"sharethis-inline-share-buttons\" ><\/div>\n<p><a href=\"https:\/\/sharegpt4o.github.io\/\" target=\"_blank\" rel=\"noreferrer noopener nofollow\">PartagerGPT-4o-Image<\/a> est un ensemble de donn\u00e9es de g\u00e9n\u00e9ration d&#039;images \u00e0 grande \u00e9chelle et de haute qualit\u00e9 o\u00f9 toutes les images sont g\u00e9n\u00e9r\u00e9es \u00e0 l&#039;aide des capacit\u00e9s de g\u00e9n\u00e9ration d&#039;images de GPT-4o.<\/p>\n\n\n\n<p>Cet ensemble de donn\u00e9es vise \u00e0 combiner les avantages des mod\u00e8les multimodaux open source avec les atouts de GPT-4o dans la cr\u00e9ation de contenu visuel. <\/p>\n\n\n\n<p>Il comprend 45 000 \u00e9chantillons de texte en image et 46 000 \u00e9chantillons d&#039;image en texte, ce qui en fait une ressource pratique pour am\u00e9liorer les mod\u00e8les multimodaux dans les t\u00e2ches de g\u00e9n\u00e9ration et d&#039;\u00e9dition d&#039;images.<\/p>\n\n\n\n<figure class=\"wp-block-image\"><img loading=\"lazy\" decoding=\"async\" width=\"998\" height=\"700\" src=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/07\/f48c8349-9310-48a1-9276-d7614aa958d9.png\" alt=\"\" class=\"wp-image-911\" srcset=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/07\/f48c8349-9310-48a1-9276-d7614aa958d9.png 998w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/07\/f48c8349-9310-48a1-9276-d7614aa958d9-300x210.png 300w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/07\/f48c8349-9310-48a1-9276-d7614aa958d9-768x539.png 768w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/07\/f48c8349-9310-48a1-9276-d7614aa958d9-18x12.png 18w\" sizes=\"auto, (max-width: 998px) 100vw, 998px\" \/><\/figure>\n\n\n\n<p>Janus-4o est un LLM multimodal capable de g\u00e9n\u00e9rer du texte vers des images et du texte et des images vers des images. Il est bas\u00e9 sur Janus-Pro et optimis\u00e9 gr\u00e2ce au jeu de donn\u00e9es ShareGPT-4o-Image. Compar\u00e9 \u00e0 Janus-Pro, Janus-4o introduit des fonctionnalit\u00e9s de g\u00e9n\u00e9ration de texte et d&#039;images vers des images et apporte des am\u00e9liorations significatives \u00e0 la g\u00e9n\u00e9ration de texte vers des images.<\/p>\n\n\n\n<div id=\"ez-toc-container\" class=\"ez-toc-v2_0_82_2 counter-hierarchy ez-toc-counter ez-toc-grey ez-toc-container-direction\">\n<div class=\"ez-toc-title-container\">\n<p class=\"ez-toc-title\" style=\"cursor:inherit\">Table des mati\u00e8res<\/p>\n<span class=\"ez-toc-title-toggle\"><a href=\"#\" class=\"ez-toc-pull-right ez-toc-btn ez-toc-btn-xs ez-toc-btn-default ez-toc-toggle\" aria-label=\"Toggle Table des mati\u00e8res\"><span class=\"ez-toc-js-icon-con\"><span class=\"\"><span class=\"eztoc-hide\" style=\"display:none;\">Toggle<\/span><span class=\"ez-toc-icon-toggle-span\"><svg style=\"fill: #999;color:#999\" xmlns=\"http:\/\/www.w3.org\/2000\/svg\" class=\"list-377408\" width=\"20px\" height=\"20px\" viewbox=\"0 0 24 24\" fill=\"none\"><path d=\"M6 6H4v2h2V6zm14 0H8v2h12V6zM4 11h2v2H4v-2zm16 0H8v2h12v-2zM4 16h2v2H4v-2zm16 0H8v2h12v-2z\" fill=\"currentColor\"><\/path><\/svg><svg style=\"fill: #999;color:#999\" class=\"arrow-unsorted-368013\" xmlns=\"http:\/\/www.w3.org\/2000\/svg\" width=\"10px\" height=\"10px\" viewbox=\"0 0 24 24\" version=\"1.2\" baseprofile=\"tiny\"><path d=\"M18.2 9.3l-6.2-6.3-6.2 6.3c-.2.2-.3.4-.3.7s.1.5.3.7c.2.2.4.3.7.3h11c.3 0 .5-.1.7-.3.2-.2.3-.5.3-.7s-.1-.5-.3-.7zM5.8 14.7l6.2 6.3 6.2-6.3c.2-.2.3-.5.3-.7s-.1-.5-.3-.7c-.2-.2-.4-.3-.7-.3h-11c-.3 0-.5.1-.7.3-.2.2-.3.5-.3.7s.1.5.3.7z\"\/><\/svg><\/span><\/span><\/span><\/a><\/span><\/div>\n<nav><ul class='ez-toc-list ez-toc-list-level-1' ><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-1\" href=\"https:\/\/janusai.pro\/fr\/janus-4o-sharegpt-4o-image\/#Dataset_Overview\" >Pr\u00e9sentation de l&#039;ensemble de donn\u00e9es<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-2\" href=\"https:\/\/janusai.pro\/fr\/janus-4o-sharegpt-4o-image\/#Related_Links\" >Liens connexes<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-3\" href=\"https:\/\/janusai.pro\/fr\/janus-4o-sharegpt-4o-image\/#Paper_Introduction\" >Introduction du document<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-4\" href=\"https:\/\/janusai.pro\/fr\/janus-4o-sharegpt-4o-image\/#Method_Overview\" >Aper\u00e7u de la m\u00e9thode<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-5\" href=\"https:\/\/janusai.pro\/fr\/janus-4o-sharegpt-4o-image\/#Experimental_Results\" >R\u00e9sultats exp\u00e9rimentaux<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-6\" href=\"https:\/\/janusai.pro\/fr\/janus-4o-sharegpt-4o-image\/#Conclusions\" >Conclusions<\/a><\/li><\/ul><\/nav><\/div>\n<h2 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Dataset_Overview\"><\/span>Pr\u00e9sentation de l&#039;ensemble de donn\u00e9es<span class=\"ez-toc-section-end\"><\/span><\/h2>\n\n\n\n<p>L&#039;ensemble de donn\u00e9es ShareGPT-4o-Image contient 91\u00a0000 \u00e9chantillons de g\u00e9n\u00e9ration d&#039;images GPT-4o, class\u00e9s comme suit\u00a0:<\/p>\n\n\n\n<ul class=\"wp-block-list\">\n<li>Texte en image\u00a0: 45\u00a0717<\/li>\n\n\n\n<li>Texte-plus-image-\u00e0-image\u00a0: 46\u00a0539<\/li>\n<\/ul>\n\n\n\n<h2 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Related_Links\"><\/span>Liens connexes<span class=\"ez-toc-section-end\"><\/span><\/h2>\n\n\n\n<p>Code: <a href=\"https:\/\/github.com\/FreedomIntelligence\/ShareGPT-4o-Image\" target=\"_blank\" rel=\"noreferrer noopener nofollow\">github cliquez ici<\/a><\/p>\n\n\n\n<p>Mod\u00e8le: <a href=\"https:\/\/huggingface.co\/FreedomIntelligence\/Janus-4o-7B\" target=\"_blank\" rel=\"noreferrer noopener nofollow\">obtenir le mod\u00e8le ShareGPT-4o-Image<\/a><\/p>\n\n\n\n<p>Papier: <a href=\"https:\/\/arxiv.org\/pdf\/2506.18095\" target=\"_blank\" rel=\"noreferrer noopener nofollow\">cliquez ici<\/a><\/p>\n\n\n\n<h2 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Paper_Introduction\"><\/span>Introduction du document<span class=\"ez-toc-section-end\"><\/span><\/h2>\n\n\n\n<p>Les avanc\u00e9es r\u00e9centes dans les mod\u00e8les de g\u00e9n\u00e9ration multimodale ont permis la g\u00e9n\u00e9ration d&#039;images r\u00e9alistes et conformes aux instructions. Cependant, des syst\u00e8mes de pointe comme GPT-4o-Image restent propri\u00e9taires et inaccessibles.<\/p>\n\n\n\n<p>Pour rendre ces capacit\u00e9s accessibles au public, l&#039;article pr\u00e9sente ShareGPT-4o-Image, le premier ensemble de donn\u00e9es contenant 45 000 exemples de texte vers image et 46 000 exemples de texte plus image vers image, tous synth\u00e9tis\u00e9s \u00e0 l&#039;aide des capacit\u00e9s de g\u00e9n\u00e9ration d&#039;images de GPT-4o pour affiner ses capacit\u00e9s avanc\u00e9es de g\u00e9n\u00e9ration d&#039;images. \u00c0 l&#039;aide de cet ensemble de donn\u00e9es, l&#039;article a d\u00e9velopp\u00e9 Janus-4o, un mod\u00e8le de langage multimodal de grande taille capable de g\u00e9n\u00e9rer du texte vers une image et du texte plus image vers une image.<\/p>\n\n\n\n<p>Janus-4o am\u00e9liore non seulement consid\u00e9rablement les capacit\u00e9s de g\u00e9n\u00e9ration de texte en image par rapport \u00e0 son pr\u00e9d\u00e9cesseur Janus-Pro, mais introduit \u00e9galement des capacit\u00e9s de g\u00e9n\u00e9ration de texte plus image en image. Il atteint notamment des performances impressionnantes dans la g\u00e9n\u00e9ration d&#039;images \u00e0 partir de texte et d&#039;images \u00e0 partir de z\u00e9ro en utilisant seulement 91 000 \u00e9chantillons synth\u00e9tiques et form\u00e9s pendant 6 heures sur une machine GPU 8 \u00d7 A800.<\/p>\n\n\n\n<p>Nous esp\u00e9rons que la sortie de ShareGPT-4o-Image et Janus-4o favorisera la recherche ouverte dans la g\u00e9n\u00e9ration d&#039;images photor\u00e9alistes et align\u00e9es sur les instructions.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Method_Overview\"><\/span>Aper\u00e7u de la m\u00e9thode<span class=\"ez-toc-section-end\"><\/span><\/h2>\n\n\n\n<figure class=\"wp-block-image\"><img loading=\"lazy\" decoding=\"async\" width=\"1028\" height=\"718\" src=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/07\/74bd55e5-5cc6-49e8-be21-cf5c4a66042d.png\" alt=\"\" class=\"wp-image-908\" srcset=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/07\/74bd55e5-5cc6-49e8-be21-cf5c4a66042d.png 1028w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/07\/74bd55e5-5cc6-49e8-be21-cf5c4a66042d-300x210.png 300w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/07\/74bd55e5-5cc6-49e8-be21-cf5c4a66042d-1024x715.png 1024w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/07\/74bd55e5-5cc6-49e8-be21-cf5c4a66042d-768x536.png 768w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/07\/74bd55e5-5cc6-49e8-be21-cf5c4a66042d-18x12.png 18w\" sizes=\"auto, (max-width: 1028px) 100vw, 1028px\" \/><\/figure>\n\n\n\n<p><strong>ShareGPT-4o-Image am\u00e9liore les performances de g\u00e9n\u00e9ration d&#039;images.<\/strong> En affinant Janus-Pro avec ShareGPT-4o-Image, nous avons g\u00e9n\u00e9r\u00e9 Janus-4o, qui affiche des performances de g\u00e9n\u00e9ration d&#039;images nettement am\u00e9lior\u00e9es. Janus-4o prend \u00e9galement en charge la g\u00e9n\u00e9ration de texte vers image et d&#039;image vers image, surpassant les autres benchmarks avec seulement 91\u00a0000 \u00e9chantillons d&#039;entra\u00eenement.<\/p>\n\n\n\n<figure class=\"wp-block-image\"><img loading=\"lazy\" decoding=\"async\" width=\"1024\" height=\"370\" src=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/07\/fc3b163f-d1d2-42f5-81bc-884eb677ea52.png\" alt=\"\" class=\"wp-image-910\" srcset=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/07\/fc3b163f-d1d2-42f5-81bc-884eb677ea52.png 1024w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/07\/fc3b163f-d1d2-42f5-81bc-884eb677ea52-300x108.png 300w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/07\/fc3b163f-d1d2-42f5-81bc-884eb677ea52-768x278.png 768w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/07\/fc3b163f-d1d2-42f5-81bc-884eb677ea52-18x7.png 18w\" sizes=\"auto, (max-width: 1024px) 100vw, 1024px\" \/><\/figure>\n\n\n\n<p><strong>Pr\u00e9sentation du mod\u00e8le Janus-4o.<\/strong> Le mod\u00e8le est bas\u00e9 sur Janus-Pro et a \u00e9t\u00e9 d\u00e9velopp\u00e9 en affinant ShareGPT-4o-Image. Il int\u00e8gre des am\u00e9liorations pour prendre en charge la g\u00e9n\u00e9ration de texte vers image et d&#039;image vers image. Les t\u00e2ches de conversion de texte vers image et de texte vers image sont entra\u00een\u00e9es conjointement.<\/p>\n\n\n\n<figure class=\"wp-block-image\"><img loading=\"lazy\" decoding=\"async\" width=\"1058\" height=\"304\" src=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/07\/2b81408d-3c8b-45a8-ac73-ee0a48164c05.png\" alt=\"\" class=\"wp-image-909\" srcset=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/07\/2b81408d-3c8b-45a8-ac73-ee0a48164c05.png 1058w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/07\/2b81408d-3c8b-45a8-ac73-ee0a48164c05-300x86.png 300w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/07\/2b81408d-3c8b-45a8-ac73-ee0a48164c05-1024x294.png 1024w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/07\/2b81408d-3c8b-45a8-ac73-ee0a48164c05-768x221.png 768w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/07\/2b81408d-3c8b-45a8-ac73-ee0a48164c05-18x5.png 18w\" sizes=\"auto, (max-width: 1058px) 100vw, 1058px\" \/><\/figure>\n\n\n\n<h2 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Experimental_Results\"><\/span>R\u00e9sultats exp\u00e9rimentaux<span class=\"ez-toc-section-end\"><\/span><\/h2>\n\n\n\n<figure class=\"wp-block-image\"><img loading=\"lazy\" decoding=\"async\" width=\"1072\" height=\"1140\" src=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/07\/72720ada-7418-4979-a8fd-4ce09050d696.png\" alt=\"\" class=\"wp-image-907\" srcset=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/07\/72720ada-7418-4979-a8fd-4ce09050d696.png 1072w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/07\/72720ada-7418-4979-a8fd-4ce09050d696-282x300.png 282w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/07\/72720ada-7418-4979-a8fd-4ce09050d696-963x1024.png 963w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/07\/72720ada-7418-4979-a8fd-4ce09050d696-768x817.png 768w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/07\/72720ada-7418-4979-a8fd-4ce09050d696-11x12.png 11w\" sizes=\"auto, (max-width: 1072px) 100vw, 1072px\" \/><\/figure>\n\n\n\n<h2 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Conclusions\"><\/span>Conclusions<span class=\"ez-toc-section-end\"><\/span><\/h2>\n\n\n\n<p>ShareGPT-4o-Image est le premier ensemble de donn\u00e9es \u00e0 grande \u00e9chelle capable d&#039;exploiter les capacit\u00e9s avanc\u00e9es de g\u00e9n\u00e9ration d&#039;images de GPT-4o, qu&#039;il s&#039;agisse de conversion texte-image ou texte-image. \u00c0 partir de cet ensemble de donn\u00e9es, l&#039;\u00e9tude a d\u00e9velopp\u00e9 Janus-4o, un mod\u00e8le d&#039;apprentissage automatique (MLLM) capable de g\u00e9n\u00e9rer des images de haute qualit\u00e9 \u00e0 partir de texte pur ou de combinaisons image-texte.<\/p>\n\n\n\n<p>Janus-4o apporte des am\u00e9liorations significatives dans la g\u00e9n\u00e9ration de texte en image et obtient des r\u00e9sultats tr\u00e8s comp\u00e9titifs dans les t\u00e2ches de texte en image, d\u00e9montrant la haute qualit\u00e9 et la praticit\u00e9 de ShareGPT-4o-Image.<\/p>\n\n\n\n<p>Gr\u00e2ce \u00e0 l&#039;efficacit\u00e9 de la g\u00e9n\u00e9ration d&#039;images autor\u00e9gressives bas\u00e9e sur MLLM, Janus-4o peut \u00eatre form\u00e9 en seulement 6 heures sur une machine GPU 8\u00d7A800 et r\u00e9alise des am\u00e9liorations de performances significatives avec des exigences de calcul extr\u00eamement faibles.<\/p>","protected":false},"excerpt":{"rendered":"<p>ShareGPT-4o-Image est un jeu de donn\u00e9es de g\u00e9n\u00e9ration d&#039;images \u00e0 grande \u00e9chelle et de haute qualit\u00e9, toutes g\u00e9n\u00e9r\u00e9es gr\u00e2ce aux capacit\u00e9s de GPT-4o. Ce jeu de donn\u00e9es vise \u00e0 combiner les avantages des mod\u00e8les multimodaux open source avec les atouts de GPT-4o pour la cr\u00e9ation de contenu visuel. Il comprend 45\u00a0000 \u00e9chantillons de conversion de texte en image et 46\u00a0000 \u00e9chantillons d&#039;image en texte, ce qui en fait une ressource pratique pour am\u00e9liorer les mod\u00e8les multimodaux dans le domaine de l&#039;image\u2026<\/p>","protected":false},"author":2,"featured_media":859,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_kadence_starter_templates_imported_post":false,"_kad_post_transparent":"","_kad_post_title":"","_kad_post_layout":"","_kad_post_sidebar_id":"","_kad_post_content_style":"","_kad_post_vertical_padding":"","_kad_post_feature":"","_kad_post_feature_position":"","_kad_post_header":false,"_kad_post_footer":false,"footnotes":""},"categories":[1],"tags":[],"class_list":["post-906","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-uncategorized"],"_links":{"self":[{"href":"https:\/\/janusai.pro\/fr\/wp-json\/wp\/v2\/posts\/906","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/janusai.pro\/fr\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/janusai.pro\/fr\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/janusai.pro\/fr\/wp-json\/wp\/v2\/users\/2"}],"replies":[{"embeddable":true,"href":"https:\/\/janusai.pro\/fr\/wp-json\/wp\/v2\/comments?post=906"}],"version-history":[{"count":1,"href":"https:\/\/janusai.pro\/fr\/wp-json\/wp\/v2\/posts\/906\/revisions"}],"predecessor-version":[{"id":912,"href":"https:\/\/janusai.pro\/fr\/wp-json\/wp\/v2\/posts\/906\/revisions\/912"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/janusai.pro\/fr\/wp-json\/wp\/v2\/media\/859"}],"wp:attachment":[{"href":"https:\/\/janusai.pro\/fr\/wp-json\/wp\/v2\/media?parent=906"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/janusai.pro\/fr\/wp-json\/wp\/v2\/categories?post=906"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/janusai.pro\/fr\/wp-json\/wp\/v2\/tags?post=906"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}