CompartilharGPT-4o-Imagem é um conjunto de dados de geração de imagens de alta qualidade e grande escala, onde todas as imagens são geradas usando os recursos de geração de imagens do GPT-4o.

Este conjunto de dados visa combinar as vantagens dos modelos multimodais de código aberto com os pontos fortes do GPT-4o na criação de conteúdo visual.

Inclui 45.000 amostras de texto para imagem e 46.000 amostras de imagem para texto, tornando-se um recurso prático para aprimorar modelos multimodais em tarefas de geração e edição de imagens.

O Janus-4o é um LLM multimodal capaz de gerar texto para imagem e texto + imagem para imagem. Baseia-se no Janus-Pro e foi aprimorado com o conjunto de dados ShareGPT-4o-Image. Comparado ao Janus-Pro, o Janus-4o introduz recursos de geração de texto + imagem para imagem e alcança melhorias significativas na geração de texto para imagem.

Visão geral do conjunto de dados

O conjunto de dados ShareGPT-4o-Image contém 91.000 amostras de geração de imagens GPT-4o, categorizadas da seguinte forma:

  • Texto para imagem: 45.717
  • Texto mais imagem para imagem: 46.539

Links relacionados

Código: github clique aqui

Modelo: obtenha o modelo ShareGPT-4o-Image

Papel: clique aqui

Introdução ao artigo

Avanços recentes em modelos de geração multimodal possibilitaram a geração de imagens realistas e alinhadas às instruções. No entanto, sistemas líderes como o GPT-4o-Image permanecem proprietários e inacessíveis.

Para tornar esses recursos acessíveis ao público, o artigo apresenta o ShareGPT-4o-Image, o primeiro conjunto de dados contendo 45.000 exemplos de texto para imagem e 46.000 exemplos de texto mais imagem para imagem, todos sintetizados usando os recursos de geração de imagens do GPT-4o para refinar suas habilidades avançadas de geração de imagens. Usando esse conjunto de dados, o artigo desenvolveu o Janus-4o, um modelo de linguagem grande multimodal capaz de gerar texto para imagem e texto mais imagem para imagem.

O Janus-4o não apenas melhora significativamente as capacidades de geração de texto para imagem em relação ao seu antecessor Janus-Pro, mas também introduz capacidades de geração de texto mais imagem para imagem. Notavelmente, ele atinge um desempenho impressionante na geração de imagens a partir de texto e imagens do zero usando apenas 91 mil amostras sintéticas e treinadas por 6 horas em uma máquina com GPU 8×A800.

Esperamos que o lançamento do ShareGPT-4o-Image e do Janus-4o promova pesquisas abertas na geração de imagens fotorrealistas e alinhadas às instruções.

Visão geral do método

O ShareGPT-4o-Image melhora o desempenho da geração de imagens. Ao ajustar o Janus-Pro com o ShareGPT-4o-Image, geramos o Janus-4o, que demonstra um desempenho significativamente melhorado na geração de imagens. O Janus-4o também suporta geração de texto para imagem e imagem para imagem, superando outros benchmarks com apenas 91.000 amostras de treinamento.

Visão geral do modelo Janus-4o. O modelo é baseado no Janus-Pro e construído por meio de ajustes finos no ShareGPT-4o-Image. Ele incorpora melhorias para suportar a geração de texto para imagem e imagem para imagem. Tanto as tarefas de texto para imagem quanto as de texto para imagem são treinadas em conjunto.

Resultados experimentais

Conclusões

O ShareGPT-4o-Image é o primeiro conjunto de dados em larga escala capaz de capturar os recursos avançados de geração de imagens do GPT-4o em conversão de texto para imagem e conversão de texto para imagem. Com base nesse conjunto de dados, o artigo desenvolveu o Janus-4o, um modelo de aprendizado de máquina (MLLM) capaz de gerar imagens de alta qualidade a partir de texto puro ou de combinações de imagem e texto.

O Janus-4o alcança melhorias significativas na geração de texto para imagem e atinge resultados altamente competitivos em tarefas de texto para imagem, demonstrando a alta qualidade e praticidade do ShareGPT-4o-Image.

Graças à eficiência da geração de imagens autorregressivas baseada em MLLM, o Janus-4o pode ser treinado em apenas 6 horas em uma máquina com GPU 8×A800 e obtém melhorias significativas de desempenho com requisitos computacionais extremamente baixos.

Publicações semelhantes

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *