Caractéristiques de Janus Pro
Architecture multimodale unifiée de Janus Pro
Activation de la fonction bidirectionnelle compréhension et génération d'images via un cadre autorégressif avec une architecture Transformer unifiée. Il comporte des voies d'encodage visuel découplées pour améliorer la flexibilité et les performances.
Supériorité des performances inter-modèles de Janus Pro
Surpasse les principaux modèles tels que DALL-E 3 et Stable Diffusion dans les tests de référence (par ex, Score GenEval 0,80 contre 0,67 pour DALL-E 3), excellant dans les tâches de suivi des instructions texte-image.
Compatibilité avec les logiciels libres de Janus AI
Offres Variantes de paramètres 1B/7B sous licence MIT, hébergé sur Hugging Face et GitHub pour un déploiement et une personnalisation rapides. L'utilisation commerciale est illimitée.
Spécifications du traitement de la vision de Janus AI
Traite les images à Résolution de 384×384, en intégrant les Encodeur de vision SigLIP-L et les adaptateurs MLP pour optimiser l'extraction des caractéristiques et l'efficacité du passage d'une tâche à l'autre.
Évolutivité rentable de Janus Pro
Combinaisons conception légère de 7B-paramètres avec des prix compétitifs (par rapport aux modèles OpenAI), réduisant la consommation de ressources informatiques pour une adoption commerciale.
Cadre de formation optimisé de Janus Pro
Effets de levier ensembles de données étendus et des techniques d'apprentissage renforcées par la stabilité pour améliorer la précision des résultats, bien qu'elles soient limitées par les contraintes de résolution dans la restauration des détails fins (par exemple, les tâches OCR).





