GPT-4o-Görüntüsünü Paylaş GPT-4o'nun görüntü oluşturma yetenekleri kullanılarak tüm görüntülerin oluşturulduğu, büyük ölçekli, yüksek kaliteli bir görüntü oluşturma veri kümesidir.
Bu veri seti, açık kaynaklı çok modlu modellerin avantajlarını GPT-4o'nun görsel içerik oluşturmadaki güçlü yönleriyle birleştirmeyi amaçlamaktadır.
45.000 metinden resme ve 46.000 resimden metne örnek içerdiğinden, görüntü oluşturma ve düzenleme görevlerinde çok modlu modelleri geliştirmek için pratik bir kaynaktır.

Janus-4o, metinden görüntüye ve metin+görüntüden görüntüye üretim yapabilen çok modlu bir LLM'dir. Janus-Pro'ye dayanır ve ShareGPT-4o-Image veri kümesi kullanılarak ince ayarlanmıştır. Janus-Pro ile karşılaştırıldığında, Janus-4o metin+görüntüden görüntüye üretim yetenekleri sunar ve metinden görüntüye üretimde önemli iyileştirmeler elde eder.
Veri Kümesi Genel Bakışı
ShareGPT-4o-Image veri seti, aşağıdaki şekilde kategorize edilen 91.000 GPT-4o görüntü oluşturma örneğini içerir:
- Metin-görüntü: 45.717
- Metin artı resim-resim: 46.539
İlgili Bağlantılar
Modeli: ShareGPT-4o-Image modelini edinin
Kağıt: buraya tıklayın
Makale Girişi
Çok modlu üretim modellerindeki son gelişmeler gerçekçi, talimata uyumlu görüntü üretiminin kilidini açtı. Ancak, GPT-4o-Image gibi önde gelen sistemler tescilli ve erişilemez olmaya devam ediyor.
Bu yetenekleri kamuya açık hale getirmek için, makalede, GPT-4o'nun gelişmiş görüntü oluşturma yeteneklerini geliştirmek için görüntü oluşturma yeteneklerini kullanarak sentezlenen, 45.000 metinden görüntüye ve 46.000 metin artı görüntüden görüntüye örnek içeren ilk veri kümesi olan ShareGPT-4o-Image tanıtılmaktadır. Bu veri kümesini kullanarak, makale, metinden görüntüye ve metin artı görüntüden görüntüye oluşturma yeteneğine sahip çok modlu büyük dil modeli Janus-4o'yu geliştirmiştir.
Janus-4o, selefi Janus-Pro'ye kıyasla metinden görüntüye üretim yeteneklerini önemli ölçüde iyileştirmekle kalmıyor, aynı zamanda metin artı görüntüden görüntüye üretim yeteneklerini de sunuyor. Özellikle, yalnızca 91K sentetik örnekler kullanarak ve 8×A800 GPU makinesinde 6 saat boyunca eğitilerek metinden ve sıfırdan görüntüden görüntü üretmede etkileyici bir performansa ulaşıyor.
ShareGPT-4o-Image ve Janus-4o'nun piyasaya sürülmesinin, foto-gerçekçi, talimata uygun görüntü oluşturmada açık araştırmayı teşvik edeceğini umuyoruz.
Yöntem Genel Bakışı

ShareGPT-4o-Image görüntü oluşturma performansını artırır. Janus-Pro'yi ShareGPT-4o-Image ile ince ayarlayarak, önemli ölçüde iyileştirilmiş görüntü oluşturma performansı gösteren Janus-4o'yu ürettik. Janus-4o ayrıca metinden görüntüye ve görüntüden görüntüye oluşturmayı da destekleyerek yalnızca 91.000 eğitim örneğiyle diğer kıyaslamalardan daha iyi performans gösteriyor.

Janus-4o Modeline Genel Bakış. Model Janus-Pro'ye dayanmaktadır ve ShareGPT-4o-Image üzerinde ince ayar yapılarak oluşturulmuştur. Metinden görüntüye ve görüntüden görüntüye oluşturmayı desteklemek için geliştirmeler içerir. Hem metinden görüntüye hem de metinden görüntüye görevler birlikte eğitilir.

Deneysel Sonuçlar

Sonuçlar
ShareGPT-4o-Image, GPT-4o'nun metinden görüntüye ve metinden görüntüye oluşturmadaki gelişmiş görüntü oluşturma yeteneklerini yakalayabilen ilk büyük ölçekli veri kümesidir. Bu veri kümesine dayanarak, makale saf metinden veya görüntü-metin kombinasyonlarından yüksek kaliteli görüntüler üretebilen bir makine öğrenme modeli (MLLM) olan Janus-4o'yu geliştirdi.
Janus-4o, metinden resme dönüştürmede önemli iyileştirmeler sağlıyor ve metinden resme dönüştürme görevlerinde oldukça rekabetçi sonuçlar elde ediyor; bu da ShareGPT-4o-Image'ın yüksek kalitesini ve pratikliğini kanıtlıyor.
MLLM tabanlı öz-regresif görüntü oluşturmanın verimliliği sayesinde Janus-4o, 8×A800 GPU'lu bir makinede sadece 6 saatte eğitilebiliyor ve son derece düşük hesaplama gereksinimleriyle önemli performans iyileştirmeleri elde ediyor.