BagikanGPT-4o-Image adalah kumpulan data pembangkitan gambar berskala besar dan berkualitas tinggi yang semua gambarnya dihasilkan menggunakan kemampuan pembangkitan gambar GPT-4o.

Kumpulan data ini bertujuan untuk menggabungkan keunggulan model multimoda sumber terbuka dengan kekuatan GPT-4o dalam pembuatan konten visual.

Meliputi 45.000 contoh teks ke gambar dan 46.000 contoh gambar ke teks, menjadikannya sumber daya praktis untuk meningkatkan model multimoda dalam tugas pembuatan dan penyuntingan gambar.

Janus-4o adalah LLM multimoda yang mampu melakukan konversi teks ke gambar dan konversi teks+gambar ke gambar. LLM ini berbasis pada Janus-Pro dan disempurnakan menggunakan kumpulan data ShareGPT-4o-Image. Dibandingkan dengan Janus-Pro, Janus-4o memperkenalkan kemampuan konversi teks+gambar ke gambar dan mencapai peningkatan signifikan dalam konversi teks ke gambar.

Ikhtisar Kumpulan Data

Dataset ShareGPT-4o-Image berisi 91.000 sampel pembuatan gambar GPT-4o, dikategorikan sebagai berikut:

  • Teks ke gambar: 45.717
  • Teks-plus-gambar-ke-gambar: 46.539

Tautan Terkait

Kode: github klik disini

Model: dapatkan model ShareGPT-4o-Image

Kertas: klik di sini

Pendahuluan Makalah

Kemajuan terkini dalam model pembangkitan multimoda telah membuka peluang pembangkitan gambar yang realistis dan sesuai instruksi. Namun, sistem terkemuka seperti GPT-4o-Image masih bersifat hak milik dan tidak dapat diakses.

Agar kemampuan ini dapat diakses publik, makalah ini memperkenalkan ShareGPT-4o-Image, kumpulan data pertama yang berisi 45.000 contoh teks-ke-gambar dan 46.000 contoh teks-ditambah-gambar-ke-gambar, semuanya disintesis menggunakan kemampuan pembuatan gambar GPT-4o untuk menyempurnakan kemampuan pembuatan gambar tingkat lanjutnya. Dengan menggunakan kumpulan data ini, makalah ini mengembangkan Janus-4o, model bahasa besar multimoda yang mampu melakukan pembuatan teks-ke-gambar dan teks-ditambah-gambar-ke-gambar.

Janus-4o tidak hanya meningkatkan kemampuan pembuatan teks menjadi gambar secara signifikan dibandingkan pendahulunya Janus-Pro, tetapi juga memperkenalkan kemampuan pembuatan teks plus gambar menjadi gambar. Khususnya, ia mencapai kinerja yang mengesankan dalam menghasilkan gambar dari teks dan gambar dari awal hanya dengan menggunakan 91 ribu sampel sintetis dan dilatih selama 6 jam pada mesin GPU 8×A800.

Kami berharap peluncuran ShareGPT-4o-Image dan Janus-4o akan mendorong penelitian terbuka dalam pembuatan gambar yang fotorealistis dan selaras dengan instruksi.

Tinjauan Metode

ShareGPT-4o-Image meningkatkan kinerja pembuatan gambar. Dengan menyempurnakan Janus-Pro dengan ShareGPT-4o-Image, kami menghasilkan Janus-4o, yang menunjukkan peningkatan kinerja pembuatan gambar secara signifikan. Janus-4o juga mendukung pembuatan teks ke gambar dan gambar ke gambar, mengungguli tolok ukur lain dengan hanya 91.000 sampel pelatihan.

Ikhtisar Model Janus-4o. Model ini didasarkan pada Janus-Pro dan dibangun dengan menyempurnakannya pada ShareGPT-4o-Image. Model ini menggabungkan penyempurnaan untuk mendukung pembuatan teks ke gambar dan gambar ke gambar. Tugas teks ke gambar dan teks ke gambar dilatih secara bersamaan.

Hasil Eksperimen

Kesimpulan

ShareGPT-4o-Image merupakan kumpulan data berskala besar pertama yang mampu menangkap kemampuan pembuatan gambar canggih GPT-4o dalam pembuatan teks ke gambar dan teks ke gambar. Berdasarkan kumpulan data ini, makalah ini mengembangkan Janus-4o, sebuah model pembelajaran mesin (MLLM) yang mampu menghasilkan gambar berkualitas tinggi dari teks murni atau kombinasi gambar-teks.

Janus-4o mencapai peningkatan signifikan dalam pembuatan teks-ke-gambar dan mencapai hasil yang sangat kompetitif dalam tugas teks-ke-gambar, yang menunjukkan kualitas tinggi dan kepraktisan ShareGPT-4o-Image.

Berkat efisiensi pembuatan gambar regresif mandiri berdasarkan MLLM, Janus-4o dapat dilatih hanya dalam 6 jam pada mesin GPU 8×A800 dan mencapai peningkatan kinerja yang signifikan dengan persyaratan komputasi yang sangat rendah.

Posting serupa

Tinggalkan Balasan

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *