Explosão! DeepSeekpresente de Ano Novo Chinês da Apple - uma explicação detalhada do modelo multimodal Janus-Pro
O mais recente modelo Janus-Pro do DeepSeek conecta diretamente os "cérebros esquerdo e direito" da IA multimodal!
Esse assassino de duas faces, que pode simultaneamente compreender imagens e textos e gerar imagens, está reescrevendo as regras do setor com sua estrutura desenvolvida por ele mesmo.
Não se trata de uma simples superposição de funções, mas, ao desacoplar o caminho de codificação visual, o modelo alcançou o verdadeiro "uma mente, dois usos".
Os modelos multimodais tradicionais são como usar a mesma mão para escrever e desenhar, enquanto o Janus-Pro equipa diretamente a IA com dois sistemas neurais!
Revolução da estrutura: resolvendo o problema centenário da multimodalidade
A inovação mais implacável do Janus-Pro é dividir a codificação visual em dois canais independentes.
É como equipar a IA com o olho da compreensão e a mão da criação, de modo que o modelo não tenha mais dificuldades ao processar "descrição de imagem" e "texto para imagem".
Sua maior inovação está em seu novo design de arquitetura unificada. Essa arquitetura consiste em três componentes principais:
Autocodificador: como o modelo de idioma principal
SigLIP-L@384: responsável pela codificação da compreensão da imagem
VQ-VAE baseado no LlamaGen: para geração de imagens
Ao desacoplar a codificação visual em caminhos independentes e, ao mesmo tempo, manter uma arquitetura de transformador unificada, o Janus-Pro resolve de forma engenhosa o conflito de funções dos modelos anteriores no codificador visual.
O @reach_vb aponta o principal avanço na arquitetura:
O modelo foi desenvolvido com base no DeepSeek-LLM-1.5b/7b, usa SigLIP-L para processar entradas de imagem de 384×384 e desacopla o processo de codificação por meio de caminhos específicos da tarefa
Esse design permite que o modelo alterne perfeitamente entre tarefas multimodais, mantendo uma única arquitetura do Transformer.
Estratégia de treinamento: o caminho evolutivo para o sucesso em três etapas
A equipe do DeepSeek adotou um processo de treinamento em três etapas cuidadosamente projetado:
Etapa 1: Treinar novos parâmetros no conjunto de dados ImageNet para estabelecer conexões conceituais entre elementos visuais e linguísticos
Etapa 2: Introduzir um conjunto de dados híbrido multimodal para o ajuste fino completo dos parâmetros
Estágio 3: Aprimorar os recursos de diálogo e acompanhamento de comandos por meio de ajuste fino supervisionado
Ajustes inovadores também foram feitos na relação de dados:
Tarefa de compreensão de imagens: 50% (um aumento significativo)
Tarefa de geração de imagens: 40
Tarefa de texto: 10%
A @iScienceLuvr aponta o segredo do treinamento:
A proporção de tarefas de texto foi deliberadamente reduzida durante o terceiro estágio de ajuste fino
Isso força o modelo a concentrar sua capacidade de computação na conversão multimodal
Mestre de desempenho
Esse monstro "versátil" está arrasando nas duas métricas principais!
Os testes oficiais mostram que o Janus-Pro não apenas supera o modelo unificado anterior, mas pode até mesmo enfrentar modelos especializados, obtendo uma pontuação tão alta quanto a do LLaVA na tarefa de compreensão e superando o DALL-E 3 em qualidade de geração!
Com uma pontuação GenEval de 0,8, ele envergonha o SD3-Medium
e uma pontuação DPG-Bench de 84,19, sua qualidade de criação visual é próxima à de designers profissionais
Isso se baseia em uma estratégia de treinamento de 72 milhões de imagens sintéticas e três estágios de treinamento (treinamento de adaptador → pré-treinamento unificado → ajuste fino supervisionado), que literalmente transformou o modelo em um "mestre multimodal".
A @dr_cintas postou uma comparação das medidas reais:
Ao executar uma versão quantizada de 4 bits em um iPhone, a velocidade de inferência é de quase 60 tokens/s
A miniatura de 384×384 gerada pode realmente ler o texto da placa de licença
No teste de benchmark de compreensão multimodal, o Janus-Pro-7B demonstrou uma força surpreendente:
POPE: 87.4%
MME-PT: 1567.1
MMBench: 79,2
SEED: 72,1
MMMU: 41,0
MM-Vet: 50,0
Em termos de geração de imagens, o modelo obteve uma pontuação GenEval de 0,8 e uma pontuação DPG-Bench de 84,19, superando muitos modelos convencionais, incluindo o DALL-E 3 e o SD3-Medium.
Código aberto do MIT: sinta-se à vontade para jogar!
Desta vez, o DeepSeek virou o jogo: a versão dupla 7B/1B é totalmente de código aberto, e a licença MIT permite modificações comerciais!
O Hugging Face pode ser baixado imediatamente, e até mesmo a versão leve 1B pode ser executada localmente em um iPhone.
O desenvolvedor @angrypenguinPNG fez uma demonstração ao vivo:
Digite "future city night scene" (cena noturna da cidade do futuro) e uma visualização de rua cyberpunk aparecerá em segundos
Aumente o zoom para examinar os detalhes da cena, e o modelo pode descrever com precisão o gradiente das luzes de neon
Valor prático: redução da barreira de entrada
Para atender às necessidades de diferentes cenários, o DeepSeek oferece duas versões:
Janus-Pro-7B: a versão completa, com desempenho avançado
Janus-Pro-1B: uma versão leve que pode ser executada diretamente no navegador
Ambas as versões foram de código aberto na plataforma Hugging Face e lançadas sob a licença MIT, para que os desenvolvedores possam usá-las e modificá-las livremente.
O avanço abrangente do DeepSeek
Agora, a pergunta mais empolgante é: quando a compreensão e a geração não precisarem mais de dois modelos separados, a arquitetura de aplicativos de IA existente será interrompida coletivamente?
Aqueles que ainda têm dificuldades com aplicativos de modo único devem considerar o desenvolvimento de aplicativos colaborativos para os cérebros esquerdo e direito.
Afinal de contas, um modelo que pode ser reproduzido simultaneamente com texto e gráficos é a verdadeira personificação da multimodalidade.
Vale a pena observar que o lançamento do Janus-Pro é apenas um de uma série de grandes descobertas recentes do DeepSeek:
A Perplexity integrou o modelo DeepSeek R1 para pesquisa profunda na Web
A versão destilada do DeepSeek R1 atinge uma velocidade de inferência local de 60 tokens/s no iPhone
O DeepSeek AI Assistant chegou ao topo da lista de aplicativos gratuitos da App Store
e demonstrou um desempenho de inferência extremamente rápido na plataforma Groq.
Essas conquistas demonstram a força abrangente do DeepSeek no campo da IA, e o progresso inovador do Janus-Pro abriu novas direções para o desenvolvimento da IA multimodal.
Janus pro Links e documentos relacionados
Endereço do projeto:
Downloads de modelos:
Experiência rápida:
Sem implantação, gratuito, uso on-line janus pro
Documentação de referência:
Por fim, gostaríamos de dizer: O nome da empresa de Sam Altman, a torta que ele pintou e o caminho que ele pensou parecem estar sendo passados para essa empresa chinesa movida pela curiosidade, que continuará a explorar em profundidade os limites da inteligência!