공유GPT-4o-Image 모든 이미지가 GPT-4o의 이미지 생성 기능을 사용하여 생성된 대규모 고품질 이미지 생성 데이터 세트입니다.

이 데이터 세트는 오픈 소스 멀티모달 모델의 장점과 시각적 콘텐츠 제작에 있어 GPT-4o의 강점을 결합하는 것을 목표로 합니다.

여기에는 45,000개의 텍스트-이미지 변환 샘플과 46,000개의 이미지-텍스트 변환 샘플이 포함되어 있어 이미지 생성 및 편집 작업에서 멀티모달 모델을 향상시키는 데 유용한 실용적인 리소스입니다.

Janus-4o는 텍스트-이미지 및 텍스트+이미지-이미지 생성이 가능한 멀티모달 LLM입니다. Janus-Pro를 기반으로 하며 ShareGPT-4o-Image 데이터셋을 사용하여 미세 조정되었습니다. Janus-Pro와 비교하여 Janus-4o는 텍스트+이미지-이미지 생성 기능을 도입하여 텍스트-이미지 생성 성능을 크게 향상시켰습니다.

데이터 세트 개요

ShareGPT-4o-Image 데이터 세트에는 다음과 같이 분류된 91,000개의 GPT-4o 이미지 생성 샘플이 포함되어 있습니다.

  • 텍스트-이미지 변환: 45,717
  • 텍스트와 이미지를 이미지로 변환: 46,539

관련 링크

암호: github 여기를 클릭하세요

모델: ShareGPT-4o-Image 모델을 가져옵니다

종이: 여기를 클릭하세요

논문 소개

최근 멀티모달 생성 모델의 발전으로 명령어 기반 이미지 생성이 현실적으로 가능해졌습니다. 그러나 GPT-4o-Image와 같은 주요 시스템은 여전히 독점적이며 접근이 어렵습니다.

이러한 기능을 대중이 이용할 수 있도록 본 논문에서는 45,000개의 텍스트-이미지와 46,000개의 텍스트-이미지-이미지 예제를 포함하는 최초의 데이터 세트인 ShareGPT-4o-Image를 소개합니다. 이 모든 데이터는 GPT-4o의 이미지 생성 기능을 사용하여 합성되어 고급 이미지 생성 기능을 개선합니다. 이 데이터 세트를 사용하여 본 논문에서는 텍스트-이미지 및 텍스트-이미지-이미지 생성이 가능한 다중 모드 대규모 언어 모델인 Janus-4o를 개발했습니다.

Janus-4o는 이전 버전인 Janus-Pro에 비해 텍스트-이미지 생성 기능을 크게 개선했을 뿐만 아니라 텍스트와 이미지-이미지 생성 기능도 도입했습니다. 특히, 8×A800 GPU 머신에서 6시간 동안 학습하고 91K 합성 샘플만을 사용하여 텍스트와 이미지에서 이미지를 생성하는 데 인상적인 성능을 달성했습니다.

ShareGPT-4o-Image와 Janus-4o의 출시가 사진처럼 사실적이고 명령어에 맞춰진 이미지 생성 분야의 오픈 연구를 촉진하기를 바랍니다.

방법 개요

ShareGPT-4o-Image는 이미지 생성 성능을 향상시킵니다. ShareGPT-4o-Image를 사용하여 Janus-Pro를 미세 조정하여 Janus-4o를 생성했으며, 이는 이미지 생성 성능이 크게 향상되었음을 보여줍니다. Janus-4o는 텍스트-이미지 및 이미지-이미지 생성도 지원하여, 단 91,000개의 학습 샘플만으로 다른 벤치마크보다 우수한 성능을 보였습니다.

Janus-4o 모델 개요. 이 모델은 Janus-Pro를 기반으로 ShareGPT-4o-Image에서 미세 조정하여 구축되었습니다. 텍스트-이미지 및 이미지-이미지 생성을 지원하는 향상된 기능이 포함되어 있습니다. 텍스트-이미지 및 텍스트-이미지 작업은 모두 공동으로 학습됩니다.

실험 결과

결론

ShareGPT-4o-Image는 GPT-4o의 고급 이미지 생성 기능을 텍스트-이미지 및 텍스트-이미지 생성에 활용할 수 있는 최초의 대규모 데이터셋입니다. 본 논문에서는 이 데이터셋을 기반으로 순수 텍스트 또는 이미지-텍스트 조합으로부터 고품질 이미지를 생성할 수 있는 머신러닝 모델(MLLM)인 Janus-4o를 개발했습니다.

Janus-4o는 텍스트-이미지 생성에서 상당한 개선을 이루었고 텍스트-이미지 작업에서 매우 경쟁력 있는 결과를 달성하여 ShareGPT-4o-Image의 높은 품질과 실용성을 입증했습니다.

MLLM을 기반으로 한 자기 회귀 이미지 생성의 효율성 덕분에 Janus-4o는 8×A800 GPU 머신에서 단 6시간 만에 학습이 가능하며 매우 낮은 계산 요구 사항으로 상당한 성능 향상을 달성합니다.

유사한 게시물

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다