Explosion ! DeepSeekLe cadeau du Nouvel An chinois de la Chine - une explication détaillée du modèle multimodal Janus-Pro
Le dernier modèle Janus-Pro de DeepSeek relie directement les "cerveaux gauche et droit" de l'IA multimodale !
Ce tueur à deux faces, qui peut simultanément comprendre des images et du texte et générer des images, réécrit les règles de l'industrie grâce à son cadre développé par ses soins.
Il ne s'agit pas d'une simple superposition de fonctions, mais en découplant la voie d'encodage visuel, le modèle a permis de réaliser le véritable "un esprit, deux usages".
Les modèles multimodaux traditionnels reviennent à utiliser la même main pour écrire et dessiner, tandis que Janus-Pro dote directement l'IA de deux systèmes neuronaux !
Révolution des cadres : résoudre le problème centenaire de la multimodalité
L'innovation la plus impitoyable de Janus-Pro consiste à diviser le codage visuel en deux canaux indépendants.
C'est comme si l'on dotait l'IA de l'œil de la compréhension et de la main de la création, de sorte que le modèle n'ait plus de difficultés à traiter la "description d'image" et le "texte à l'image".
Sa plus grande avancée réside dans sa toute nouvelle architecture unifiée. Cette architecture se compose de trois éléments essentiels :
Autoencodeur : comme modèle linguistique de base
SigLIP-L@384 : responsable de l'encodage de la compréhension des images
VQ-VAE basé sur LlamaGen : pour la génération d'images
En découplant le codage visuel en chemins indépendants tout en conservant une architecture de transformateur unifiée, Janus-Pro résout ingénieusement le conflit de rôle des modèles précédents dans le codeur visuel.
@reach_vb souligne l'avancée majeure dans l'architecture :
Le modèle est construit sur DeepSeek-LLM-1.5b/7b, utilise SigLIP-L pour traiter les entrées d'images 384×384, et découple le processus d'encodage par des chemins spécifiques à chaque tâche
Cette conception permet au modèle de passer de manière transparente d'une tâche multimodale à l'autre tout en conservant une seule architecture de transformateur.
Stratégie de formation : la voie évolutive vers un succès en trois étapes
L'équipe DeepSeek a adopté un processus de formation en trois étapes soigneusement conçu :
Étape 1 : Entraînement de nouveaux paramètres sur l'ensemble de données ImageNet afin d'établir des liens conceptuels entre les éléments visuels et linguistiques
Étape 2 : Introduction d'un ensemble de données hybrides multimodales pour l'affinement complet des paramètres
Étape 3 : Améliorer le suivi des commandes et les capacités de dialogue grâce à une mise au point supervisée
Des ajustements novateurs ont également été apportés au ratio des données :
Tâche de compréhension d'images : 50% (augmentation significative)
Tâche de génération d'images : 40
Tâche textuelle : 10%
@iScienceLuvr met en évidence le secret de la formation :
La proportion de tâches textuelles a été délibérément réduite au cours de la troisième phase de mise au point
Cela oblige le modèle à concentrer sa puissance de calcul sur la conversion intermodale
Maître d'œuvre
Ce monstre "polyvalent" fait des ravages dans les deux métriques de base !
Les tests officiels montrent que Janus-Pro ne se contente pas de battre le modèle unifié précédent, mais qu'il peut même se mesurer à des modèles spécialisés : il obtient un score aussi élevé que LLaVA dans la tâche de compréhension et surpasse DALL-E 3 en termes de qualité de génération !
Avec un score GenEval de 0,8, il fait honte au SD3-Medium.
et un score DPG-Bench de 84,19, sa qualité de création visuelle est proche de celle des designers professionnels
Ce résultat est basé sur une stratégie d'entraînement de 72 millions d'images synthétiques et trois étapes d'entraînement (entraînement adaptatif → pré-entraînement unifié → mise au point supervisée), qui ont littéralement transformé le modèle en un "maître multimodal".
@dr_cintas a publié une comparaison des mesures réelles :
En exécutant une version quantifiée à 4 bits sur un iPhone, la vitesse d'inférence est de près de 60 tokens/s.
La vignette 384×384 générée permet de lire le texte de la plaque d'immatriculation.
Lors du test de référence sur la compréhension multimodale, Janus-Pro-7B a fait preuve d'une force étonnante :
PAPE : 87.4%
MME-PT : 1567.1
MMBench : 79,2
SEED : 72,1
MMMU : 41,0
MM-Vet : 50.0
En termes de génération d'images, le modèle a obtenu un score GenEval de 0,8 et un score DPG-Bench de 84,19, surpassant de nombreux modèles grand public tels que DALL-E 3 et SD3-Medium.
MIT open source : jouez librement !
DeepSeek a renversé la vapeur cette fois-ci - la version double 7B/1B est entièrement open source, et la licence MIT autorise les modifications commerciales !
Hugging Face peut être téléchargé immédiatement, et même la version allégée 1B peut être exécutée localement sur un iPhone.
Le développeur @angrypenguinPNG a fait une démonstration en direct :
Saisissez "future city night scene" et une vue de rue cyberpunk apparaît en quelques secondes.
Zoomer pour examiner les détails de la scène, et le modèle peut décrire avec précision le dégradé des néons.
Valeur pratique : abaisser la barrière à l'entrée
Pour répondre aux besoins de différents scénarios, DeepSeek propose deux versions :
Janus-Pro-7B : la version complète, avec de puissantes performances
Janus-Pro-1B : une version légère qui peut être exécutée directement dans le navigateur
Les deux versions ont été mises à disposition sur la plateforme Hugging Face et publiées sous la licence MIT, afin que les développeurs puissent les utiliser et les modifier librement.
La percée complète de DeepSeek
La question la plus passionnante est la suivante : lorsque la compréhension et la génération ne nécessiteront plus deux modèles distincts, l'architecture actuelle des applications d'IA sera-t-elle collectivement bouleversée ?
Ceux qui se débattent encore avec des applications monomodales devraient envisager de développer des applications collaboratives pour les cerveaux gauche et droit.
Après tout, un modèle qui peut jouer simultanément avec du texte et des graphiques est la véritable incarnation de la multimodalité.
Il convient de noter que la publication de Janus-Pro fait partie d'une série de percées majeures réalisées récemment par DeepSeek :
Perplexity a intégré le modèle DeepSeek R1 pour la recherche sur le web profond.
La version distillée de DeepSeek R1 atteint une vitesse d'inférence locale de 60 tokens/s sur l'iPhone
L'assistant IA DeepSeek en tête de la liste des applications gratuites de l'App Store
et a démontré des performances d'inférence extrêmement rapides sur la plateforme Groq.
Ces réalisations démontrent la force globale de DeepSeek dans le domaine de l'IA, et les progrès révolutionnaires de Janus-Pro ont ouvert de nouvelles directions pour le développement de l'IA multimodale.
Janus pro Liens et documents connexes
Adresse du projet :
Téléchargements de modèles :
Expérience rapide :
Pas de déploiement, gratuit, utilisation en ligne janus pro
Documentation de référence :
Enfin, nous aimerions dire : Le nom de la société de Sam Altman, le gâteau qu'il a peint et le chemin qu'il a tracé semblent être transmis à cette société chinoise animée par la curiosité, qui poursuivra l'exploration en profondeur des limites de l'intelligence !