Mensagem para levar para casa: O Janus é um modelo simples, unificado e extensível de compreensão e geração multimodal que dissocia a compreensão multimodal e a codificação visual gerada, atenuando os possíveis conflitos entre as duas tarefas. Ele pode ser ampliado para incorporar outras modalidades de entrada no futuro. O Janus-Pro se baseia nesse alicerce otimizando a estratégia de treinamento (inclusive aumentando o número de etapas de treinamento, ajustando as proporções de dados etc.), adicionando mais dados (inclusive o uso de dados sintéticos etc.) e ampliando o tamanho do modelo (para 7 bilhões de parâmetros), o que leva a avanços na compreensão multimodal do modelo e nos recursos de adesão à instrução de texto para imagem.
Janus-Pro é uma versão avançada do trabalho anterior Janus, especificamente, incluindo (1) uma estratégia de treinamento otimizada, (2) dados de treinamento expandidos e (3) modelos maiores. Com esses aprimoramentos, o Janus-Pro faz avanços significativos na compreensão multimodal e nos recursos de adesão à instrução de texto para imagem, além de aumentar a estabilidade da geração de texto para imagem. Antes de desvendar o Janus-Pro, vamos analisar o Janus.
Revisão da Janus
O antecessor Janus é uma estrutura autorregressiva para geração e compreensão multimodal unificada, que é usada para desacoplar a codificação visual para geração e compreensão multimodal unificada. Para a compreensão multimodal, o design normalmente segue o LLaVA, usando codificadores visuais como uma ponte para permitir que modelos de linguagem grandes compreendam imagens. Para a geração, ele geralmente se baseia em modelos de difusão, e alguns se baseiam em métodos autorregressivos. Algumas abordagens tentam usar um único Transformer para tentar unificar as tarefas de compreensão e geração multimodais, que normalmente usam um único codificador visual para processar as entradas de ambas as tarefas.
Entretanto, há diferenças nas representações necessárias para as tarefas de compreensão e geração multimodais. Na tarefa de compreensão multimodal, o codificador visual visa extrair informações semânticas de alto nível (por exemplo, categorias de objetos ou atributos visuais), e o resultado envolve não apenas a extração de informações da imagem, mas também o raciocínio semântico complexo, com o codificador concentrando-se principalmente em representações semânticas de alta dimensão. A tarefa de geração se preocupa principalmente com a geração de detalhes locais e a manutenção da consistência global da imagem, exigindo, portanto, representações codificadas de baixa dimensão de estruturas espaciais e detalhes de textura. Unificar as representações de ambas as tarefas no mesmo espaço pode gerar conflitos.
O Janus contém dois caminhos de codificação visual independentes para compreensão e geração multimodal e traz dois benefícios: 1) atenua os conflitos decorrentes dos diferentes requisitos de granularidade da compreensão e da geração multimodais e 2) é flexível e dimensionável, desacoplando de modo que as tarefas de compreensão e geração possam ser codificadas usando técnicas de codificação de última geração específicas para seus domínios e, no futuro, possam ser alimentadas com nuvens de pontos, sinais de EEG ou dados de áudio e processadas usando um transformador unificado.
Para a compreensão do texto, ele é convertido em IDs discretos usando o Tokenizer integrado do LLM;
Para a compreensão multimodal, os recursos semânticos de alta dimensão nas imagens são extraídos usando codificadores SigLIP (nota do autor: o Cosmos também usa codificadores SigLIP na seção Guardrails), e os recursos extraídos são mapeados no espaço de recursos de texto do LLM usando o Adaptor (MLP de 2 camadas);
O lado longo foi ajustado para 384 pixels e o lado curto foi preenchido para 384 pixels usando RGB(127, 127, 127);
Para a geração visual, a imagem foi convertida em IDs discretos usando o VQ Tokenizer, e cada ID foi mapeado no espaço de recursos textuais do LLM usando o Adaptor (MLP de 2 camadas);
As bordas curtas foram redimensionadas para 384 pixels e as bordas longas foram cortadas para 384 pixels;
O treinamento geral foi realizado com 16 nós, cada um contendo 8 GPUs Nvidia A100;
Para as tarefas de geração visual e compreensão multimodal, as sequências de recursos de imagem e as sequências de recursos de texto são vinculadas como entrada para o LLM (o DeepSeek-LLM 1.3B é usado no texto);
O cabeçote de previsão integrado do LLM é utilizado para previsões de texto nas tarefas de compreensão de texto puro e de compreensão multimodal, enquanto um cabeçote de previsão inicializado aleatoriamente é utilizado para previsões de imagem na tarefa de geração visual. O modelo inteiro adere a uma estrutura autorregressiva sem a necessidade de máscaras de atenção especialmente projetadas.
Treinamento Janus é dividido em três fases:
Fase 1
Adaptador de trem e cabeçote de imagem para criar conexões entre elementos linguísticos e visuais no espaço de incorporação, permitindo que o LLM compreenda as entidades na imagem e tenha recursos iniciais de geração visual;
Para compreensão multimodal, use 1,25 milhão de dados de legendas emparelhadas de texto de imagem do SHareGPT4V no formato: ;
Para geração visual, usando 1,2 milhão de amostras do ImageNet1k no formato: ;
Fase 2
Pré-treinamento unificadoO objetivo da fase de treinamento é o de criar um corpus multimodal, usando um corpus multimodal para pré-treinamento unificado para aprender a compreensão e a geração multimodais. Dados de texto simples, dados de compreensão multimodal e dados de geração visual são usados nessa fase. Treinamento simples de geração visual usando o ImageNet-1k, seguido pelo uso de dados genéricos de texto para imagem para aprimorar a geração visual no domínio aberto do modelo;
Dados de texto simples: Corpus pré-treinado do DeepSeek-LLM;
Dados intercalados de imagem-texto: Conjuntos de dados WikiHow e WIT;
Dados da legenda da imagem: Imagens de várias fontes e legendadas novamente algumas das imagens usando modelos multimodais de código aberto, com dados formatados como pares de perguntas e respostas, por exemplo, Descreva a imagem em detalhes.
Dados tabulares e gráficos: dados tabulares e gráficos correspondentes do DeepSeek-VL no formato ;
Dados gerados visualmente: pares imagem-capítulo de vários conjuntos de dados e 2 milhões de dados internos;
Durante o treinamento, apenas a primeira frase da legenda é usada aleatoriamente com uma probabilidade de 25%;
As amostras do ImageNet aparecem somente nas 120 mil etapas iniciais de treinamento, com imagens de outros conjuntos de dados aparecendo nas 60 mil etapas subsequentes;
Fase 3
Ajuste fino supervisionadoonde os modelos pré-treinados são ajustados usando dados de ajuste fino de instruções para melhorar sua capacidade de seguir instruções e diálogos. Ajuste fino de todos os parâmetros, exceto o codificador de geração. Mascarar as dicas do sistema e do usuário ao supervisionar as respostas. Para garantir que o Janus tenha proficiência tanto na compreensão quanto na geração multimodal, os modelos não são ajustados separadamente para tarefas específicas. Em vez disso, usamos uma combinação de dados de diálogo somente de texto, dados de compreensão multimodal e dados de geração visual para garantir a versatilidade em uma variedade de cenários;
Compreensão de texto: usa dados de fontes específicas;
Compreensão multimodal: uso de dados de várias fontes para ajuste de instruções;
Geração visual: usando um subconjunto de pares imagem-texto de alguns dos conjuntos de dados da Fase II, bem como 4 milhões de dados internos;
O formato dos dados é: Usuário: \nAssistente: ;
Objetivos do treinamento
O Janus é um modelo autorregressivo treinado usando uma função de perda de entropia cruzada. Para tarefas de compreensão de texto simples e compreensão multimodal, a perda é calculada na sequência de texto. Para tarefas de geração visual, a perda é calculada somente na sequência de imagens. Para manter o design simples, não são atribuídos pesos de perda diferentes às diferentes tarefas.
Raciocínio
Usando o próximo método de previsão de elemento lexical, para compreensão de texto simples e compreensão multimodal, os elementos lexicais são amostrados sequencialmente a partir da distribuição de previsão. Para a geração de imagens, é usado um bootstrap sem classificador.
Possíveis extensões
Para a compreensão multimodal, 1) um codificador visual mais forte poderia ser escolhido e 2) técnicas dinâmicas de alta resolução poderiam ser usadas;
Para a geração de visão, 1) poderiam ser escolhidos codificadores mais refinados, 2) usar funções de perda projetadas especificamente para a geração de visão e 3) combinar atenção causal e métodos paralelos;
Mais modalidades, com a capacidade de integrar nuvens de pontos 3D, hápticos, EEG e outras entradas para modalidades de perda;
Atualização do Janus-Pro
Com dados de treinamento limitados e capacidade de modelo relativamente pequena (1B), o Janus é deficiente em alguns aspectos, como a representação deficiente da geração de imagens sob pistas curtas e a qualidade inconsistente da geração de texto para imagem:
Principais melhorias
Estratégia de treinamento
Etapa 1: aumentar o número de etapas de treinamento e treinar totalmente no ImageNet;
Etapa 2: não usar mais o ImageNet, usar diretamente dados regulares de texto para imagem para treinamento;
Etapa 3: Modificar as proporções do conjunto de dados no processo de ajuste fino, alterando a proporção de dados multimodais, dados de texto simples e dados de texto para imagem de 7:3:10 para 5:1:4;
Escala de dados
Compreensão multimodal
Estágio 2: Adicione 90 milhões de amostras, incluindo YFCC para legendas de imagens e Doc-matrix para compreensão de documentos de tabelas e gráficos;
Etapa 3: adicionar conjuntos de dados adicionais ao DeepSeek-VL2, como a compreensão do MEME;
Geração visual: os dados do mundo real podem ser de baixa qualidade, resultando em uma geração instável de texto para imagem e em um resultado estético ruim. O Janus-Pro usa 72 milhões de amostras de dados estéticos sintéticos, com uma fase de pré-treinamento uniforme (Estágio 2) de proporção 1:1 de dados reais para dados sintéticos;
Escala de modelos
Dimensione os parâmetros do modelo para uma escala de parâmetros de 7 bilhões;
Detalhes experimentais
Em comparação com o Janus, os detalhes dos experimentos Janus-Pro são basicamente os mesmos. Em contrapartida, o modelo de parâmetros maiores usou mais nós de cluster (16 a 32).
Hiperparâmetros de treinamento Janus-Pro
Insuficiente
Para a compreensão multimodal, a resolução de entrada é limitada a 384×384, o que afeta o desempenho em tarefas visuais de granulação fina. Para a geração de texto para imagem, a baixa resolução resulta em uma falta de detalhes nos resultados gerados.