Mensaje para llevar a casa: Janus es un modelo de comprensión y generación multimodal simple, unificado y extensible que desacopla la comprensión multimodal y la codificación visual generada, mitigando los conflictos potenciales entre ambas tareas. Puede ampliarse para incorporar otras modalidades de entrada en el futuro. Janus-Pro se apoya en esta base optimizando la estrategia de entrenamiento (incluido el aumento del número de pasos de entrenamiento, el ajuste de las proporciones de datos, etc.), añadiendo más datos (incluido el uso de datos sintéticos, etc.) y ampliando el tamaño del modelo (hasta 7.000 millones de parámetros), lo que da lugar a avances en las capacidades de comprensión multimodal del modelo y de adherencia a las instrucciones de texto a imagen.
Janus-Pro es una versión avanzada del trabajo anterior Janus, en concreto, incluye (1) una estrategia de entrenamiento optimizada, (2) datos de entrenamiento ampliados y (3) modelos de mayor tamaño. Con estas mejoras, Janus-Pro logra avances significativos en las capacidades de comprensión multimodal y de adherencia a instrucciones de texto a imagen, al tiempo que mejora la estabilidad de la generación de texto a imagen. Antes de hablar de Janus-Pro, repasemos Janus.
Revisión de Janus
El predecesor Janus es un marco autorregresivo para la comprensión y generación multimodal unificada, que se utiliza para desacoplar la codificación visual para la comprensión y generación multimodal unificada. Para la comprensión multimodal, el diseño suele seguir LLaVA, utilizando codificadores visuales como puente para permitir que grandes modelos lingüísticos comprendan imágenes. Para la generación, suele basarse en modelos de difusión, y algunos se basan en métodos autorregresivos. Algunos enfoques intentan utilizar un único Transformador para tratar de unificar las tareas de comprensión multimodal y generación, que suele utilizar un único codificador visual para procesar las entradas de ambas tareas.
Sin embargo, existen diferencias en las representaciones necesarias para las tareas de comprensión y generación multimodal. En la tarea de comprensión multimodal, el codificador visual tiene como objetivo extraer información semántica de alto nivel (por ejemplo, categorías de objetos o atributos visuales), y la salida implica no sólo extraer información de la imagen, sino también un razonamiento semántico complejo, por lo que el codificador se centra principalmente en representaciones semánticas de alta dimensión. La tarea de generación se ocupa principalmente de generar detalles locales y mantener la coherencia global de la imagen, por lo que requiere representaciones codificadas de baja dimensión de estructuras espaciales y detalles de textura. Unificar las representaciones de ambas tareas en el mismo espacio puede dar lugar a conflictos.
Janus contiene 2 vías de codificación visual independientes para la comprensión multimodal y la generación, y aporta dos ventajas: 1) mitiga los conflictos derivados de los diferentes requisitos de granularidad de la comprensión y la generación multimodales, y 2) es flexible y escalable, desacoplándose de modo que tanto las tareas de comprensión como las de generación pueden codificarse utilizando técnicas de codificación de vanguardia específicas de sus dominios, y en el futuro pueden alimentarse con nubes de puntos, señales de EEG o datos de audio, y procesarse utilizando un Transformador unificado.
Para la comprensión de textos, éstos se convierten en identificadores discretos mediante el tokenizador incorporado en LLM;
Para la comprensión multimodal, las características semánticas de alta dimensión de las imágenes se extraen utilizando codificadores SigLIP (nota del autor: Cosmos también utiliza codificadores SigLIP en la sección Guardrails), y las características extraídas se mapean en el espacio de características de texto de LLM utilizando Adaptor (MLP de 2 capas);
El lado largo se ajustó a 384 píxeles y el lado corto se rellenó a 384 píxeles utilizando RGB(127, 127, 127);
Para la generación visual, la imagen se convirtió en ID discretos mediante el tokenizador VQ, y cada ID se mapeó en el espacio de características textuales del LLM mediante el adaptador (MLP de 2 capas);
Los bordes cortos se redimensionaron a 384 píxeles y los bordes largos se recortaron a 384 píxeles;
El entrenamiento global se realizó utilizando 16 nodos, cada uno de ellos con 8 GPU Nvidia A100;
Tanto para la generación visual como para las tareas de comprensión multimodal, las secuencias de rasgos de imagen y las secuencias de rasgos de texto se enlazan juntas como entrada al LLM (en el texto se utiliza DeepSeek-LLM 1.3B);
La cabeza de predicción incorporada del LLM se utiliza para predicciones de texto en las tareas de comprensión de texto puro y comprensión multimodal, mientras que una cabeza de predicción inicializada aleatoriamente se utiliza para predicciones de imagen en la tarea de generación visual. Todo el modelo se adhiere a un marco autorregresivo sin necesidad de máscaras de atención especialmente diseñadas.
Formación Janus se divide en 3 fases:
Fase 1
Adaptador de tren y cabezal de imagen crear conexiones entre elementos lingüísticos y visuales en el espacio de incrustación, lo que permite al LLM comprender entidades en la imagen y disponer de capacidades iniciales de generación visual;
Para la comprensión multimodal, utilice 1,25 millones de datos de subtítulos emparejados imagen-texto de SHareGPT4V en el formato: ;
Para la generación visual, utilizando 1,2 millones de muestras de ImageNet1k en el formato: ;
Fase 2
Formación previa unificada, utilizando un corpus multimodal para el preentrenamiento unificado con el fin de aprender comprensión y generación multimodal. En esta fase se utilizan datos de texto sin formato, datos de comprensión multimodal y datos de generación visual. Entrenamiento simple de generación visual utilizando ImageNet-1k, seguido del uso de datos genéricos de texto a imagen para mejorar la generación visual en el dominio abierto del modelo;
Datos de texto sin formato: Corpus preentrenado de DeepSeek-LLM;
Datos imagen-texto intercalados: Conjuntos de datos WikiHow y WIT;
Datos de subtítulos de imágenes: Imágenes de múltiples fuentes y retitulado de algunas de las imágenes utilizando modelos multimodales de código abierto, con datos formateados como pares de preguntas y respuestas, por ejemplo Describe la imagen en detalle.;
Datos tabulares y gráficos: datos tabulares y gráficos correspondientes de DeepSeek-VL en el formato ;
Datos generados visualmente: pares imagen-capa de múltiples conjuntos de datos y 2 millones de datos internos;
Durante el entrenamiento, sólo se utiliza aleatoriamente la primera frase del pie de foto con una probabilidad 25%;
Las muestras de ImageNet sólo aparecen en los 120.000 pasos de entrenamiento iniciales, mientras que las imágenes de otros conjuntos de datos aparecen en los 60.000 pasos posteriores;
Fase 3
Ajuste fino supervisadodonde los modelos preentrenados se ajustan utilizando datos de ajuste de instrucciones para mejorar su capacidad de seguir instrucciones y diálogo. Ajuste fino de todos los parámetros excepto el codificador generador. Enmascarar las pistas del sistema y del usuario mientras se supervisan las respuestas. Para garantizar que Janus domina tanto la comprensión multimodal como la generación, los modelos no se ajustan por separado para tareas específicas. En su lugar, utilizamos una mezcla de datos de diálogo de sólo texto, datos de comprensión multimodal y datos de generación visual para garantizar la versatilidad en diversos escenarios;
Comprensión de textos: utiliza datos de fuentes específicas;
Comprensión multimodal: uso de datos de múltiples fuentes para el ajuste de la instrucción;
Generación visual: utilizando un subconjunto de pares imagen-texto de algunos de los conjuntos de datos de la fase II, así como 4 millones de datos internos;
El formato de los datos es: Usuario: \n Asistente: ;
Objetivos de la formación
Janus es un modelo autorregresivo entrenado mediante una función de pérdida de entropía cruzada; para las tareas de comprensión de texto plano y comprensión multimodal, la pérdida se computa en la secuencia de texto. Para las tareas de generación visual, la pérdida se computa sólo en la secuencia de imágenes. Para simplificar el diseño, no se asignan diferentes pesos de pérdida a las distintas tareas.
Razonamiento
Utilizando el siguiente método de predicción de elementos léxicos, para la comprensión de texto plano y la comprensión multimodal, los elementos léxicos se muestrean secuencialmente a partir de la distribución de predicción. Para la generación de imágenes, se utiliza un bootstrap sin clasificador.
Posibles ampliaciones
Para la comprensión multimodal, 1) podría elegirse un codificador visual más potente y 2) podrían utilizarse técnicas dinámicas de alta resolución;
Para la generación de visión, 1) podrían elegirse codificadores más finos, 2) utilizar funciones de pérdida diseñadas específicamente para la generación de visión, y 3) combinar la atención causal y los métodos paralelos;
Más modalidades, con capacidad para integrar nubes de puntos 3D, háptica, EEG y otras entradas para modalidades de pérdida;
Actualización Janus-Pro
Con datos de entrenamiento limitados y una capacidad de modelo relativamente pequeña (1B), Janus es deficiente en algunos aspectos, como la mala representación de la generación de imágenes con pistas cortas y la calidad inconsistente de la generación de texto a imagen.La arquitectura de Janus-Pro es la misma que la de Janus, que puede verse en la siguiente figura:
Principales mejoras
Estrategia de formación
Etapa 1: Aumentar el número de pasos de entrenamiento y entrenar completamente en ImageNet;
Fase 2: Ya no se utiliza ImageNet, sino que se emplean directamente datos normales de texto a imagen para el entrenamiento;
Etapa 3: Modificar las proporciones de los conjuntos de datos en el proceso de ajuste cambiando la proporción de datos multimodales, datos de texto plano y datos de texto a imagen de 7:3:10 a 5:1:4;
Escala de datos
Comprensión multimodal
Fase 2: Añadir 90 millones de muestras, incluyendo YFCC para el subtitulado de imágenes y Doc-matrix para la comprensión de documentos de tablas y gráficos;
Etapa 3: Añadir DeepSeek-VL2 conjuntos de datos adicionales, tales como la comprensión MEME;
Generación visual: los datos del mundo real pueden ser de mala calidad, lo que provoca una generación de texto a imagen inestable y un resultado estético deficiente. Janus-Pro utiliza 72 millones de muestras de datos estéticos sintéticos, con una fase de preentrenamiento uniforme (Etapa 2) de proporción 1:1 de datos reales a datos sintéticos;
Modelo a escala
Escala los parámetros del modelo a una escala de 7.000 millones de parámetros;
Detalles experimentales
En comparación con Janus, los detalles de los experimentos Janus-Pro son básicamente los mismos. En cambio, el modelo de parámetros más grandes utilizó más nodos de clúster (de 16 a 32).
Janus-Pro hiperparámetros de entrenamiento
Insuficiente
Para la comprensión multimodal, la resolución de entrada está limitada a 384×384, lo que afecta al rendimiento en tareas visuales de grano fino. Para la generación de texto a imagen, la baja resolución provoca una falta de detalle en los resultados generados.