Explosão! DeepSeekpresente de Ano Novo Chinês da Apple - uma explicação detalhada do modelo multimodal Janus-Pro

O mais recente modelo Janus-Pro do DeepSeek conecta diretamente os "cérebros esquerdo e direito" da IA multimodal!

Esse assassino de duas faces, que pode simultaneamente compreender imagens e textos e gerar imagens, está reescrevendo as regras do setor com sua estrutura desenvolvida por ele mesmo.

Não se trata de uma simples superposição de funções, mas, ao desacoplar o caminho de codificação visual, o modelo alcançou o verdadeiro "uma mente, dois usos".

Os modelos multimodais tradicionais são como usar a mesma mão para escrever e desenhar, enquanto o Janus-Pro equipa diretamente a IA com dois sistemas neurais!

Revolução da estrutura: resolvendo o problema centenário da multimodalidade

A inovação mais implacável do Janus-Pro é dividir a codificação visual em dois canais independentes.

É como equipar a IA com o olho da compreensão e a mão da criação, de modo que o modelo não tenha mais dificuldades ao processar "descrição de imagem" e "texto para imagem".

Sua maior inovação está em seu novo design de arquitetura unificada. Essa arquitetura consiste em três componentes principais:

Autocodificador: como o modelo de idioma principal

SigLIP-L@384: responsável pela codificação da compreensão da imagem

VQ-VAE baseado no LlamaGen: para geração de imagens

Ao desacoplar a codificação visual em caminhos independentes e, ao mesmo tempo, manter uma arquitetura de transformador unificada, o Janus-Pro resolve de forma engenhosa o conflito de funções dos modelos anteriores no codificador visual.

O @reach_vb aponta o principal avanço na arquitetura:

O modelo foi desenvolvido com base no DeepSeek-LLM-1.5b/7b, usa SigLIP-L para processar entradas de imagem de 384×384 e desacopla o processo de codificação por meio de caminhos específicos da tarefa

Esse design permite que o modelo alterne perfeitamente entre tarefas multimodais, mantendo uma única arquitetura do Transformer.

Estratégia de treinamento: o caminho evolutivo para o sucesso em três etapas

A equipe do DeepSeek adotou um processo de treinamento em três etapas cuidadosamente projetado:

Etapa 1: Treinar novos parâmetros no conjunto de dados ImageNet para estabelecer conexões conceituais entre elementos visuais e linguísticos

Etapa 2: Introduzir um conjunto de dados híbrido multimodal para o ajuste fino completo dos parâmetros

Estágio 3: Aprimorar os recursos de diálogo e acompanhamento de comandos por meio de ajuste fino supervisionado

Ajustes inovadores também foram feitos na relação de dados:

Tarefa de compreensão de imagens: 50% (um aumento significativo)

Tarefa de geração de imagens: 40

Tarefa de texto: 10%

A @iScienceLuvr aponta o segredo do treinamento:

A proporção de tarefas de texto foi deliberadamente reduzida durante o terceiro estágio de ajuste fino

Isso força o modelo a concentrar sua capacidade de computação na conversão multimodal

Mestre de desempenho

Esse monstro "versátil" está arrasando nas duas métricas principais!

Os testes oficiais mostram que o Janus-Pro não apenas supera o modelo unificado anterior, mas pode até mesmo enfrentar modelos especializados, obtendo uma pontuação tão alta quanto a do LLaVA na tarefa de compreensão e superando o DALL-E 3 em qualidade de geração!

Com uma pontuação GenEval de 0,8, ele envergonha o SD3-Medium

e uma pontuação DPG-Bench de 84,19, sua qualidade de criação visual é próxima à de designers profissionais

Isso se baseia em uma estratégia de treinamento de 72 milhões de imagens sintéticas e três estágios de treinamento (treinamento de adaptador → pré-treinamento unificado → ajuste fino supervisionado), que literalmente transformou o modelo em um "mestre multimodal".

A @dr_cintas postou uma comparação das medidas reais:

Ao executar uma versão quantizada de 4 bits em um iPhone, a velocidade de inferência é de quase 60 tokens/s

A miniatura de 384×384 gerada pode realmente ler o texto da placa de licença

No teste de benchmark de compreensão multimodal, o Janus-Pro-7B demonstrou uma força surpreendente:

POPE: 87.4%

MME-PT: 1567.1

MMBench: 79,2

SEED: 72,1

MMMU: 41,0

MM-Vet: 50,0

Em termos de geração de imagens, o modelo obteve uma pontuação GenEval de 0,8 e uma pontuação DPG-Bench de 84,19, superando muitos modelos convencionais, incluindo o DALL-E 3 e o SD3-Medium.

Código aberto do MIT: sinta-se à vontade para jogar!

Desta vez, o DeepSeek virou o jogo: a versão dupla 7B/1B é totalmente de código aberto, e a licença MIT permite modificações comerciais!

O Hugging Face pode ser baixado imediatamente, e até mesmo a versão leve 1B pode ser executada localmente em um iPhone.

O desenvolvedor @angrypenguinPNG fez uma demonstração ao vivo:

Digite "future city night scene" (cena noturna da cidade do futuro) e uma visualização de rua cyberpunk aparecerá em segundos

Aumente o zoom para examinar os detalhes da cena, e o modelo pode descrever com precisão o gradiente das luzes de neon

Valor prático: redução da barreira de entrada

Para atender às necessidades de diferentes cenários, o DeepSeek oferece duas versões:

Janus-Pro-7B: a versão completa, com desempenho avançado

Janus-Pro-1B: uma versão leve que pode ser executada diretamente no navegador

Ambas as versões foram de código aberto na plataforma Hugging Face e lançadas sob a licença MIT, para que os desenvolvedores possam usá-las e modificá-las livremente.

O avanço abrangente do DeepSeek

Agora, a pergunta mais empolgante é: quando a compreensão e a geração não precisarem mais de dois modelos separados, a arquitetura de aplicativos de IA existente será interrompida coletivamente?

Aqueles que ainda têm dificuldades com aplicativos de modo único devem considerar o desenvolvimento de aplicativos colaborativos para os cérebros esquerdo e direito.

Afinal de contas, um modelo que pode ser reproduzido simultaneamente com texto e gráficos é a verdadeira personificação da multimodalidade.

Vale a pena observar que o lançamento do Janus-Pro é apenas um de uma série de grandes descobertas recentes do DeepSeek:

A Perplexity integrou o modelo DeepSeek R1 para pesquisa profunda na Web

A versão destilada do DeepSeek R1 atinge uma velocidade de inferência local de 60 tokens/s no iPhone

O DeepSeek AI Assistant chegou ao topo da lista de aplicativos gratuitos da App Store

e demonstrou um desempenho de inferência extremamente rápido na plataforma Groq.

Essas conquistas demonstram a força abrangente do DeepSeek no campo da IA, e o progresso inovador do Janus-Pro abriu novas direções para o desenvolvimento da IA multimodal.

Janus pro Links e documentos relacionados

Endereço do projeto:

Repositório do GitHub

Relatório técnico

Downloads de modelos:

Janus-Pro-7B

Janus-Pro-1B

Experiência rápida:

Sem implantação, gratuito, uso on-line janus pro

Documentação de referência:

Guia de início rápido

Evento oficial do DeepSeek

Por fim, gostaríamos de dizer: O nome da empresa de Sam Altman, a torta que ele pintou e o caminho que ele pensou parecem estar sendo passados para essa empresa chinesa movida pela curiosidade, que continuará a explorar em profundidade os limites da inteligência!

Publicações semelhantes

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *