Message à retenir : Janus est un modèle simple, unifié et extensible de compréhension et de génération multimodales qui dissocie la compréhension multimodale et le codage visuel généré, atténuant ainsi les conflits potentiels entre les deux tâches. Il peut être étendu pour intégrer d'autres modalités d'entrée à l'avenir. Janus-Pro s'appuie sur cette base en optimisant la stratégie d'entraînement (notamment en augmentant le nombre d'étapes d'entraînement, en ajustant les ratios de données, etc.), en ajoutant davantage de données (notamment en utilisant des données synthétiques, etc.) et en augmentant la taille du modèle (jusqu'à 7 milliards de paramètres), ce qui permet d'améliorer les capacités de compréhension multimodale et d'adhésion à l'instruction texte-image du modèle.
Janus-Pro est une version avancée des travaux antérieurs de Janus, comprenant (1) une stratégie d'entraînement optimisée, (2) des données d'entraînement élargies, et (3) des modèles de plus grande taille. Grâce à ces améliorations, Janus-Pro fait des progrès significatifs en matière de compréhension multimodale et d'adhésion aux instructions texte-image, tout en améliorant la stabilité de la génération de texte-image. Avant de décortiquer Janus-Pro, examinons Janus.
Révision de Janus
Le prédécesseur Janus est un cadre autorégressif pour la compréhension et la génération multimodales unifiées, qui est utilisé pour découpler le codage visuel de la compréhension et de la génération multimodales unifiées. Pour la compréhension multimodale, la conception suit généralement LLaVA, en utilisant les codeurs visuels comme un pont pour permettre aux grands modèles de langage de comprendre les images. Pour la génération, elle est généralement basée sur des modèles de diffusion, et certaines sont basées sur des méthodes autorégressives. Certaines approches tentent d'utiliser un seul transformateur pour unifier les tâches de compréhension et de génération multimodales, qui utilise généralement un seul codeur visuel pour traiter les entrées des deux tâches.
Toutefois, les représentations requises pour les tâches de compréhension et de génération multimodales sont différentes. Dans la tâche de compréhension multimodale, l'encodeur visuel vise à extraire des informations sémantiques de haut niveau (par exemple, des catégories d'objets ou des attributs visuels), et la sortie implique non seulement l'extraction d'informations de l'image, mais aussi un raisonnement sémantique complexe, l'encodeur se concentrant principalement sur des représentations sémantiques de haute dimension. La tâche de génération concerne principalement la génération de détails locaux et le maintien de la cohérence globale de l'image, ce qui nécessite des représentations codées à faible dimension des structures spatiales et des détails de la texture. L'unification des représentations des deux tâches dans le même espace peut entraîner des conflits.
Janus contient deux voies de codage visuel indépendantes pour la compréhension multimodale et la génération, et présente deux avantages : 1) il atténue les conflits découlant des différentes exigences de granularité de la compréhension et de la génération multimodales, et 2) il est flexible et évolutif, découplé de sorte que les tâches de compréhension et de génération peuvent être codées à l'aide de techniques de codage de pointe spécifiques à leurs domaines, et à l'avenir, peuvent être alimentées par des nuages de points, des signaux EEG ou des données audio, et traitées à l'aide d'un transformateur unifié.
Pour la compréhension du texte, celui-ci est converti en identifiants discrets à l'aide du tokenizer intégré à LLM ;
Pour la compréhension multimodale, les caractéristiques sémantiques de haute dimension dans les images sont extraites en utilisant les encodeurs SigLIP (note de l'auteur : Cosmos utilise également les encodeurs SigLIP dans la section Guardrails), et les caractéristiques extraites sont mappées dans l'espace de caractéristiques de texte de LLM en utilisant Adaptor (MLP à 2 couches) ;
Le côté long a été ajusté à 384 pixels et le côté court a été rempli à 384 pixels en utilisant RGB(127, 127, 127) ;
Pour la génération visuelle, l'image a été convertie en identifiants discrets à l'aide du tokenizer VQ, et chaque identifiant a été mis en correspondance avec l'espace de caractéristiques textuelles du LLM à l'aide de l'adaptateur (MLP à 2 couches) ;
Les bords courts ont été redimensionnés à 384 pixels et les bords longs ont été recadrés à 384 pixels ;
L'entraînement global a été réalisé à l'aide de 16 nœuds, chacun contenant 8 GPU Nvidia A100 ;
Pour les tâches de génération visuelle et de compréhension multimodale, les séquences de caractéristiques d'image et de texte sont liées ensemble en tant qu'entrée du LLM (DeepSeek-LLM 1.3B est utilisé dans le texte) ;
La tête de prédiction intégrée du LLM est utilisée pour les prédictions de texte dans les tâches de compréhension de texte pur et de compréhension multimodale, tandis qu'une tête de prédiction initialisée de manière aléatoire est utilisée pour les prédictions d'images dans la tâche de génération visuelle. L'ensemble du modèle adhère à un cadre autorégressif sans qu'il soit nécessaire d'utiliser des masques d'attention spécialement conçus.
Formation Janus est divisé en trois phases :
Phase 1
Adaptateur de train et tête d'image créer des connexions entre les éléments linguistiques et visuels dans l'espace d'intégration, ce qui permet au LLM de comprendre les entités dans l'image et d'avoir des capacités initiales de génération visuelle ;
Pour la compréhension multimodale, utilisez 1,25 million de données de légendes appariées image-texte de SHareGPT4V dans le format : ;
Pour la génération visuelle, en utilisant 1,2 million d'échantillons d'ImageNet1k dans le format : ;
Phase 2
Préformation unifiéeCette phase consiste en l'utilisation d'un corpus multimodal pour un pré-entraînement unifié afin d'apprendre la compréhension et la génération multimodales. Des données textuelles, des données de compréhension multimodale et des données de génération visuelle sont utilisées dans cette phase. Entraînement simple à la génération visuelle à l'aide d'ImageNet-1k, suivi de l'utilisation de données génériques texte-image pour améliorer la génération visuelle dans le domaine ouvert du modèle ;
Données textuelles : Corpus pré-entraîné DeepSeek-LLM ;
Données image-texte entrelacées : Ensembles de données WikiHow et WIT ;
Données relatives aux légendes des images : Images provenant de sources multiples, dont certaines ont été légendées à l'aide de modèles multimodaux libres, avec des données formatées sous forme de paires de questions-réponses, par exemple Décrivez l'image en détail.
Données tabulaires et graphiques : données tabulaires et graphiques correspondantes provenant de DeepSeek-VL dans le format ;
Données générées visuellement : paires d'images et de légendes provenant de plusieurs ensembles de données et 2 millions de données internes ;
Pendant la formation, seule la première phrase de la légende est utilisée de manière aléatoire avec une probabilité de 25% ;
Les échantillons d'ImageNet n'apparaissent que dans les 120 000 premières étapes de formation, les images d'autres ensembles de données apparaissant dans les 60 000 étapes suivantes ;
Phase 3
Mise au point superviséeoù les modèles pré-entraînés sont affinés à l'aide de données d'affinement des instructions afin d'améliorer leur capacité à suivre des instructions et à dialoguer. Réglage fin de tous les paramètres à l'exception de l'encodeur de génération. Masquer les indices du système et de l'utilisateur lors de la supervision des réponses. Pour s'assurer que Janus maîtrise à la fois la compréhension et la génération multimodales, les modèles ne sont pas affinés séparément pour des tâches spécifiques. Au lieu de cela, nous utilisons un mélange de données de dialogue textuel, de données de compréhension multimodale et de données de génération visuelle pour assurer la polyvalence dans une variété de scénarios ;
Compréhension de texte : utilisation de données provenant de sources spécifiques ;
Compréhension multimodale : utilisation de données provenant de sources multiples pour l'ajustement de l'enseignement ;
Génération visuelle : utilisation d'un sous-ensemble de paires image-texte provenant de certains des ensembles de données de la phase II ainsi que de 4 millions de données internes ;
Le format des données est le suivant : Utilisateur: \n Assistant : ;
Objectifs de la formation
Janus est un modèle autorégressif entraîné à l'aide d'une fonction de perte d'entropie croisée. Pour les tâches de compréhension de texte simple et de compréhension multimodale, la perte est calculée sur la séquence de texte. Pour les tâches de génération visuelle, la perte est calculée uniquement sur la séquence d'images. Pour que la conception reste simple, aucune pondération de perte différente n'est attribuée aux différentes tâches.
Raisonnement
En utilisant la méthode de prédiction de l'élément lexical suivant, pour la compréhension de texte simple et la compréhension multimodale, les éléments lexicaux sont échantillonnés séquentiellement à partir de la distribution de prédiction. Pour la génération d'images, un bootstrap sans classification est utilisé.
Extensions possibles
Pour la compréhension multimodale, 1) un codeur visuel plus puissant pourrait être choisi, et 2) des techniques dynamiques à haute résolution pourraient être utilisées ;
Pour la génération de vision, 1) on pourrait choisir des codeurs plus fins, 2) utiliser des fonctions de perte spécialement conçues pour la génération de vision, et 3) combiner l'attention causale et les méthodes parallèles ;
Plus de modalités, avec la possibilité d'intégrer des nuages de points 3D, des haptiques, des EEG et d'autres entrées pour les modalités de perte ;
Janus-Pro Mise à niveau
Avec des données de formation limitées et une capacité de modèle relativement faible (1B), Janus présente certaines lacunes, telles qu'une mauvaise représentation de la génération d'images avec des indices courts et une qualité incohérente de la génération de texte à partir d'images :
Principales améliorations
Stratégie de formation
Étape 1 : Augmenter le nombre d'étapes de formation et effectuer une formation complète sur ImageNet ;
Étape 2 : ne plus utiliser ImageNet, mais utiliser directement des données texte-image normales pour l'apprentissage ;
Étape 3 : Modifier les ratios des ensembles de données dans le cadre du processus de réglage fin en modifiant le ratio des données multimodales, des données en texte brut et des données texte-image de 7:3:10 à 5:1:4 ;
Échelle de données
Compréhension multimodale
Étape 2 : ajout de 90 millions d'échantillons, y compris YFCC pour le sous-titrage des images et Doc-matrix pour la compréhension des tableaux et des graphiques ;
Étape 3 : Ajout de DeepSeek-VL2 à des ensembles de données supplémentaires tels que la compréhension de MEME ;
Génération visuelle : les données réelles peuvent être de mauvaise qualité, ce qui entraîne une génération texte-image instable et un résultat esthétique médiocre. Janus-Pro utilise 72 millions d'échantillons de données esthétiques synthétiques, avec une phase de pré-entraînement uniforme (étape 2) d'un rapport de 1:1 entre les données réelles et les données synthétiques ;
Modèle réduit
Mettre les paramètres du modèle à l'échelle de 7 milliards de paramètres ;
Détails expérimentaux
Par rapport à Janus, les détails des expériences Janus-Pro sont fondamentalement les mêmes. En revanche, le modèle à paramètres plus larges utilise davantage de nœuds de cluster (16 à 32).
Janus-Pro hyperparamètres de formation
Insuffisant
Pour la compréhension multimodale, la résolution d'entrée est limitée à 384×384, ce qui affecte les performances des tâches visuelles fines. Pour la génération de texte à partir d'images, la faible résolution entraîne un manque de détails dans les résultats générés.