¡Explosión! DeepSeekRegalo de Año Nuevo chino: explicación detallada del modelo multimodal Janus-Pro
El último modelo Janus-Pro de DeepSeek conecta directamente los "cerebros izquierdo y derecho" de la IA multimodal.
Este asesino de dos caras, capaz de comprender y generar imágenes y textos simultáneamente, está reescribiendo las reglas del sector con su marco de desarrollo propio.
No se trata de una simple superposición de funciones, sino que, al desacoplar la ruta de codificación visual, el modelo ha logrado un verdadero "una mente, dos usos".
Los modelos multimodales tradicionales son como utilizar la misma mano para escribir y dibujar, ¡mientras que Janus-Pro dota directamente a la IA de dos sistemas neuronales!
La revolución de los marcos: resolver el centenario problema de la multimodalidad
La innovación más despiadada de Janus-Pro es dividir la codificación visual en dos canales independientes.
Es como dotar a la IA del ojo de la comprensión y la mano de la creación, para que el modelo ya no tenga dificultades al procesar "descripción de imágenes" y "texto a imagen".
Su mayor avance radica en su novedoso diseño de arquitectura unificada. Esta arquitectura consta de tres componentes básicos:
Autoencoder: como modelo lingüístico central
SigLIP-L@384: responsable de la codificación de la comprensión de imágenes
VQ-VAE basado en LlamaGen: para la generación de imágenes
Al desacoplar la codificación visual en rutas independientes manteniendo una arquitectura Transformer unificada, Janus-Pro resuelve ingeniosamente el conflicto de funciones de los modelos anteriores en el codificador visual.
@reach_vb señala el avance clave en la arquitectura:
El modelo se basa en DeepSeek-LLM-1.5b/7b, utiliza SigLIP-L para procesar entradas de imagen de 384×384 y desacopla el proceso de codificación a través de rutas específicas para cada tarea.
Este diseño permite al modelo alternar sin problemas entre tareas multimodales manteniendo una única arquitectura Transformer.
Estrategia de formación: el camino evolutivo hacia el éxito en tres etapas
El equipo de DeepSeek adoptó un proceso de formación en tres fases cuidadosamente diseñado:
Etapa 1: Entrenar nuevos parámetros en el conjunto de datos ImageNet para establecer conexiones conceptuales entre elementos visuales y lingüísticos.
Etapa 2: Introducción de un conjunto de datos híbridos multimodales para el ajuste completo de los parámetros
Etapa 3: Mejorar el seguimiento de órdenes y la capacidad de diálogo mediante un ajuste supervisado
También se han realizado ajustes innovadores en la relación de datos:
Tarea de comprensión de imágenes: 50% (un aumento significativo)
Tarea de generación de imágenes: 40
Texto tarea: 10%
@iScienceLuvr señala el secreto del entrenamiento:
La proporción de tareas de texto se redujo deliberadamente durante la tercera fase de perfeccionamiento
Esto obliga al modelo a centrar su potencia de cálculo en la conversión intermodal
Maestro de rendimiento
Este monstruo "todoterreno" está arrasando en las dos métricas principales.
Las pruebas oficiales demuestran que Janus-Pro no sólo supera al modelo unificado anterior, sino que incluso puede enfrentarse a modelos especializados: ¡puntua tan alto como LLaVA en la tarea de comprensión y supera a DALL-E 3 en calidad de generación!
Con una puntuación GenEval de 0,8, deja en evidencia a SD3-Medium.
y una puntuación DPG-Bench de 84,19, su calidad de creación visual se acerca a la de los diseñadores profesionales
Se basa en una estrategia de entrenamiento de 72 millones de imágenes sintéticas y tres etapas de entrenamiento (entrenamiento adaptador → preentrenamiento unificado → ajuste fino supervisado), que ha convertido literalmente el modelo en un "maestro multimodal".
@dr_cintas publicó una comparación de medidas reales:
Ejecutando una versión cuantificada de 4 bits en un iPhone, la velocidad de inferencia es de casi 60 tokens/s
En la miniatura de 384×384 generada se puede leer realmente el texto de la matrícula
En la prueba de referencia de comprensión multimodal, Janus-Pro-7B demostró una fuerza asombrosa:
PAPA: 87.4%
MME-PT: 1567.1
MMBench: 79,2
SEMILLA: 72,1
MMMU: 41,0
MM-Vet: 50,0
En cuanto a la generación de imágenes, el modelo obtuvo una puntuación GenEval de 0,8 y una puntuación DPG-Bench de 84,19, superando a muchos modelos convencionales como DALL-E 3 y SD3-Medium.
Código abierto del MIT: ¡siéntete libre de jugar!
DeepSeek ha cambiado las tornas esta vez: la versión dual 7B/1B es totalmente de código abierto, y la licencia MIT permite modificaciones comerciales.
Hugging Face puede descargarse inmediatamente, e incluso la versión ligera 1B puede ejecutarse localmente en un iPhone.
El desarrollador @angrypenguinPNG hizo una demostración en directo:
Introduce "escena nocturna de ciudad futura" y aparecerá una vista de calle ciberpunk en cuestión de segundos.
Haz zoom para examinar los detalles de la escena, y el modelo podrá describir con precisión el degradado de las luces de neón
Valor práctico: reducir la barrera de entrada
Para satisfacer las necesidades de distintos escenarios, DeepSeek ofrece dos versiones:
Janus-Pro-7B: la versión completa, con potentes prestaciones
Janus-Pro-1B: una versión ligera que puede ejecutarse directamente en el navegador.
Ambas versiones se han incluido en la plataforma Hugging Face y se han publicado bajo la licencia MIT, para que los desarrolladores puedan utilizarlas y modificarlas libremente.
El gran avance de DeepSeek
Ahora la pregunta más apasionante es: cuando la comprensión y la generación ya no requieran dos modelos separados, ¿se alterará colectivamente la actual arquitectura de aplicaciones de IA?
Quienes sigan luchando con aplicaciones monomodales deberían plantearse desarrollar aplicaciones colaborativas para los cerebros izquierdo y derecho.
Al fin y al cabo, un modelo que puede jugar simultáneamente con texto y gráficos es la verdadera encarnación de la multimodalidad.
Cabe señalar que la publicación de Janus-Pro es sólo uno de los grandes avances recientes de DeepSeek:
Perplexity ha integrado el modelo DeepSeek R1 para la búsqueda en la web profunda
La versión destilada de DeepSeek R1 alcanza una velocidad de inferencia local de 60 tokens/s en el iPhone
DeepSeek AI Assistant ha saltado al primer puesto de la lista gratuita de la App Store
y demostró un rendimiento de inferencia extremadamente rápido en la plataforma Groq.
Estos logros demuestran la fuerza integral de DeepSeek en el campo de la IA, y los avances pioneros de Janus-Pro han abierto nuevas vías para el desarrollo de la IA multimodal.
Janus pro Enlaces y documentos relacionados
Dirección del proyecto:
Descarga de modelos:
Experiencia rápida:
Sin despliegue, gratuito, uso en línea janus pro
Documentación de referencia:
Por último, nos gustaría decir: El nombre de la empresa de Sam Altman, el pastel que ha pintado y el camino que ha pensado parecen pasar a esta empresa china impulsada por la curiosidad, ¡que continuará la exploración en profundidad de los límites de la inteligencia!