分享GPT-4o-Image 是一个大规模、高质量的图像生成数据集,其中所有图像均使用 GPT-4o 的图像生成功能生成。

该数据集旨在将开源多模态模型的优势与 GPT-4o 在视觉内容创作方面的优势结合起来。

它包含 45,000 个文本到图像和 46,000 个图像到文本的样本,使其成为增强图像生成和编辑任务中的多模式模型的实用资源。

Janus-4o 是一个多模态 LLM,能够进行文本转图像和文本+图像转图像的生成。它基于 Janus-Pro,并使用 ShareGPT-4o-Image 数据集进行了微调。与 Janus-Pro 相比,Janus-4o 引入了文本+图像转图像的生成功能,并在文本转图像生成方面取得了显著的改进。

数据集概述

ShareGPT-4o-Image 数据集包含 91,000 个 GPT-4o 图像生成样本,分类如下:

  • 文本转图片:45,717
  • 文本加图片转图片:46,539

相关链接

代码: github点击这里

模型: 获取 ShareGPT-4o-Image 模型

纸: 点击此处

论文介绍

多模态生成模型的最新进展已开启逼真的、指令对齐的图像生成。然而,像 GPT-4o-Image 这样的领先系统仍然是专有的,无法访问。

为了让公众能够使用这些功能,本文推出了 ShareGPT-4o-Image,这是第一个包含 45,000 个文本到图像和 46,000 个文本加图像到图像示例的数据集,所有这些示例都是使用 GPT-4o 的图像生成功能合成的,以完善其高级图像生成能力。利用该数据集,本文开发了 Janus-4o,这是一种能够进行文本到图像和文本加图像到图像生成的多模态大型语言模型。

Janus-4o 不仅在前代 Janus-Pro 的基础上大幅提升了文本转图像的生成能力,还引入了文本加图像转图像的生成能力。值得一提的是,它仅使用 91K 合成样本,在 8×A800 GPU 机器上训练 6 小时,就从文本和图像从头生成图像,取得了令人印象深刻的性能。

我们希望 ShareGPT-4o-Image 和 Janus-4o 的发布能够促进照片般逼真、指令对齐图像生成的开放研究。

方法概述

ShareGPT-4o-Image 增强了图像生成性能。 通过使用 ShareGPT-4o-Image 对 Janus-Pro 进行微调,我们生成了 Janus-4o,其图像生成性能显著提升。Janus-4o 还支持文本转图像和图像转图像的生成,仅用 91,000 个训练样本就超越了其他基准测试。

Janus-4o 模型概述。 该模型基于 Janus-Pro,并通过在 ShareGPT-4o-Image 上进行微调而构建。它包含增强功能,以支持文本转图像和图像转图像的生成。文本转图像和文本转图像任务均采用联合训练。

实验结果

结论

ShareGPT-4o-Image 是首个能够捕捉 GPT-4o 在文本转图像和文本转图像生成方面先进图像生成能力的大规模数据集。基于该数据集,本文开发了 Janus-4o,这是一种机器学习模型 (MLLM),能够从纯文本或图文组合生成高质量图像。

Janus-4o 在文本转图像生成方面取得了显著的提升,并在文本转图像任务中取得了极具竞争力的成绩,展现了 ShareGPT-4o-Image 的高质量和实用性。

得益于基于MLLM的自回归图像生成的高效性,Janus-4o 仅需6个小时便可在8×A800 GPU 机器上完成训练,并以极低的计算需求实现显著的性能提升。

类似职位

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注