PartagerGPT-4o-Image est un ensemble de données de génération d'images à grande échelle et de haute qualité où toutes les images sont générées à l'aide des capacités de génération d'images de GPT-4o.

Cet ensemble de données vise à combiner les avantages des modèles multimodaux open source avec les atouts de GPT-4o dans la création de contenu visuel.

Il comprend 45 000 échantillons de texte en image et 46 000 échantillons d'image en texte, ce qui en fait une ressource pratique pour améliorer les modèles multimodaux dans les tâches de génération et d'édition d'images.

Janus-4o est un LLM multimodal capable de générer du texte vers des images et du texte et des images vers des images. Il est basé sur Janus-Pro et optimisé grâce au jeu de données ShareGPT-4o-Image. Comparé à Janus-Pro, Janus-4o introduit des fonctionnalités de génération de texte et d'images vers des images et apporte des améliorations significatives à la génération de texte vers des images.

Présentation de l'ensemble de données

L'ensemble de données ShareGPT-4o-Image contient 91 000 échantillons de génération d'images GPT-4o, classés comme suit :

  • Texte en image : 45 717
  • Texte-plus-image-à-image : 46 539

Liens connexes

Code: github cliquez ici

Modèle: obtenir le modèle ShareGPT-4o-Image

Papier: cliquez ici

Introduction du document

Les avancées récentes dans les modèles de génération multimodale ont permis la génération d'images réalistes et conformes aux instructions. Cependant, des systèmes de pointe comme GPT-4o-Image restent propriétaires et inaccessibles.

Pour rendre ces capacités accessibles au public, l'article présente ShareGPT-4o-Image, le premier ensemble de données contenant 45 000 exemples de texte vers image et 46 000 exemples de texte plus image vers image, tous synthétisés à l'aide des capacités de génération d'images de GPT-4o pour affiner ses capacités avancées de génération d'images. À l'aide de cet ensemble de données, l'article a développé Janus-4o, un modèle de langage multimodal de grande taille capable de générer du texte vers une image et du texte plus image vers une image.

Janus-4o améliore non seulement considérablement les capacités de génération de texte en image par rapport à son prédécesseur Janus-Pro, mais introduit également des capacités de génération de texte plus image en image. Il atteint notamment des performances impressionnantes dans la génération d'images à partir de texte et d'images à partir de zéro en utilisant seulement 91 000 échantillons synthétiques et formés pendant 6 heures sur une machine GPU 8 × A800.

Nous espérons que la sortie de ShareGPT-4o-Image et Janus-4o favorisera la recherche ouverte dans la génération d'images photoréalistes et alignées sur les instructions.

Aperçu de la méthode

ShareGPT-4o-Image améliore les performances de génération d'images. En affinant Janus-Pro avec ShareGPT-4o-Image, nous avons généré Janus-4o, qui affiche des performances de génération d'images nettement améliorées. Janus-4o prend également en charge la génération de texte vers image et d'image vers image, surpassant les autres benchmarks avec seulement 91 000 échantillons d'entraînement.

Présentation du modèle Janus-4o. Le modèle est basé sur Janus-Pro et a été développé en affinant ShareGPT-4o-Image. Il intègre des améliorations pour prendre en charge la génération de texte vers image et d'image vers image. Les tâches de conversion de texte vers image et de texte vers image sont entraînées conjointement.

Résultats expérimentaux

Conclusions

ShareGPT-4o-Image est le premier ensemble de données à grande échelle capable d'exploiter les capacités avancées de génération d'images de GPT-4o, qu'il s'agisse de conversion texte-image ou texte-image. À partir de cet ensemble de données, l'étude a développé Janus-4o, un modèle d'apprentissage automatique (MLLM) capable de générer des images de haute qualité à partir de texte pur ou de combinaisons image-texte.

Janus-4o apporte des améliorations significatives dans la génération de texte en image et obtient des résultats très compétitifs dans les tâches de texte en image, démontrant la haute qualité et la praticité de ShareGPT-4o-Image.

Grâce à l'efficacité de la génération d'images autorégressives basée sur MLLM, Janus-4o peut être formé en seulement 6 heures sur une machine GPU 8×A800 et réalise des améliorations de performances significatives avec des exigences de calcul extrêmement faibles.

A lire également

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *