Eve Götüren Mesaj: Janus, çok modlu anlama ve üretilen görsel kodlamayı birbirinden ayıran ve iki görev arasındaki potansiyel çatışmaları azaltan basit, birleşik ve genişletilebilir bir çok modlu anlama ve üretme modelidir. Gelecekte ek girdi modalitelerini içerecek şekilde genişletilebilir. Janus-Pro, eğitim stratejisini optimize ederek (eğitim adımlarının sayısını artırmak, veri oranlarını ayarlamak vb. dahil), daha fazla veri ekleyerek (sentetik veri kullanımı vb. dahil) ve model boyutunu (7 milyar parametreye kadar) ölçeklendirerek bu temel üzerine inşa edilir ve bu da modelin çok modlu anlama ve metinden görüntüye talimat bağlılığı yeteneklerinde ilerlemelere yol açar.

Kod adresi

Janus Pro adresi

Janus-Pro özellikle (1) optimize edilmiş bir eğitim stratejisi, (2) genişletilmiş eğitim verileri ve (3) daha büyük model boyutları dahil olmak üzere önceki çalışma Janus'un gelişmiş bir versiyonudur. Bu iyileştirmelerle Janus-Pro, çok modlu anlama ve metinden görüntüye talimat bağlılık yeteneklerinde önemli ilerlemeler sağlarken, aynı zamanda metinden görüntüye üretimin kararlılığını da artırmaktadır. Janus-Pro'yi açmadan önce Janus'u gözden geçirelim.

Janus'u İncelemek

Öncül Janus, birleşik çok modlu anlama ve üretme için görsel kodlamayı ayırmak için kullanılan birleşik çok modlu anlama ve üretme için otoregresif bir çerçevedir. Çok modlu anlama için tasarım tipik olarak LLaVA'yı takip eder ve büyük dil modellerinin görüntüleri anlamasını sağlamak için görsel kodlayıcıları bir köprü olarak kullanır. Üretim için, genellikle difüzyon modellerine dayanır ve bazıları otoregresif yöntemlere dayanır. Bazı yaklaşımlar, çok modlu anlama ve üretme görevlerini birleştirmeye çalışmak için tek bir Dönüştürücü kullanmaya çalışır; bu da genellikle her iki görevin girdilerini işlemek için tek bir görsel kodlayıcı kullanır.

Bununla birlikte, çok modlu anlama ve üretme görevleri için gereken temsillerde farklılıklar vardır. Çok modlu anlama görevinde, görsel kodlayıcı üst düzey anlamsal bilgileri (örneğin, nesne kategorileri veya görsel nitelikler) çıkarmayı amaçlar ve çıktı yalnızca görüntüden bilgi çıkarmayı değil, aynı zamanda kodlayıcının esas olarak yüksek boyutlu anlamsal temsillere odaklandığı karmaşık anlamsal muhakemeyi de içerir. Üretim görevi esas olarak yerel detayların üretilmesi ve görüntüdeki global tutarlılığın korunması ile ilgilidir, bu nedenle uzamsal yapıların ve doku detaylarının düşük boyutlu kodlanmış temsillerini gerektirir. Her iki görevin temsillerini aynı uzayda birleştirmek çatışmalara yol açabilir.

Janus, çok modlu anlama ve üretim için 2 bağımsız görsel kodlama yolu içerir ve iki fayda sağlar: 1) çok modlu anlama ve oluşturmanın farklı ayrıntı düzeyi gereksinimlerinden kaynaklanan çatışmaları azaltır ve 2) esnek ve ölçeklenebilirdir, hem anlama hem de oluşturma görevlerinin kendi alanlarına özgü en son kodlama teknikleri kullanılarak kodlanabilmesi ve gelecekte nokta bulutları, EEG sinyalleri veya ses verileriyle beslenebilmesi ve birleşik bir Transformatör kullanılarak işlenebilmesi için ayrıştırılır Gelecekte, nokta bulutları, EEG sinyalleri veya ses verileri girilebilir ve birleşik bir Transformatör kullanılarak işlenebilir.

Metin anlama için, metin LLM'nin yerleşik Tokenizer'ı kullanılarak ayrık kimliklere dönüştürülür;

Çok modlu anlama için, görüntülerdeki yüksek boyutlu anlamsal özellikler SigLIP kodlayıcıları kullanılarak çıkarılır (yazarın notu: Cosmos ayrıca Guardrails bölümünde SigLIP kodlayıcılarını kullanır) ve çıkarılan özellikler Adaptor (2 katmanlı MLP) kullanılarak LLM'nin metin özellik uzayına eşlenir;

Uzun kenar 384 piksele ayarlandı ve kısa kenar RGB(127, 127, 127) kullanılarak 384 piksele dolduruldu;

Görsel üretim için, görüntü VQ Tokenizer kullanılarak ayrık kimliklere dönüştürülmüş ve her kimlik Adaptör (2 katmanlı MLP) kullanılarak LLM'nin metinsel özellik uzayına eşlenmiştir;

Kısa kenarlar 384 piksele yeniden boyutlandırılmış ve uzun kenarlar 384 piksele kırpılmıştır;

Genel eğitim, her biri 8 Nvidia A100 GPU içeren 16 düğüm kullanılarak gerçekleştirilmiştir;

Hem görsel üretim hem de çok modlu anlama görevleri için, görüntü özellik dizileri ve metin özellik dizileri LLM'ye girdi olarak birbirine bağlanır (metinde DeepSeek-LLM 1.3B kullanılmıştır);

LLM'nin yerleşik tahmin kafası, hem saf metin anlama hem de çok modlu anlama görevlerinde metin tahminleri için kullanılırken, görsel oluşturma görevinde görüntü tahminleri için rastgele başlatılan bir tahmin kafası kullanılır. Modelin tamamı, özel olarak tasarlanmış dikkat maskelerine ihtiyaç duymadan otoregresif bir çerçeveye bağlıdır.

Janus eğitimi 3 aşamaya ayrılmıştır:

Aşama 1

Tren Adaptörü ve Görüntü Kafası Gömme uzayında dilsel ve görsel öğeler arasında bağlantılar oluşturmak, LLM'nin görüntüdeki varlıkları anlamasını ve ilk görsel oluşturma yeteneklerine sahip olmasını sağlamak;

Çok modlu anlama için SHareGPT4V'den 1,25 milyon resim-metin eşleştirilmiş başlık verisini formatında kullanın: ;

Görsel oluşturma için ImageNet1k'dan 1,2 milyon örnek formatında kullanılır: ;

Aşama 2

Birleşik ön eğitimçok modlu anlama ve üretmeyi öğrenmek için birleşik ön eğitim için çok modlu bir derlem kullanır. Bu aşamada düz metin verileri, çok modlu anlama verileri ve görsel üretim verileri kullanılır. ImageNet-1k kullanılarak basit görsel üretim eğitimi, ardından modelin açık etki alanında görsel üretimi geliştirmek için genel metinden görüntüye veri kullanımı;

Düz metin verileri: DeepSeek-LLM önceden eğitilmiş derlem;

Araya serpiştirilmiş görüntü-metin verileri: WikiHow ve WIT veri kümeleri;

Resim Altyazısı verileri: Birden fazla kaynaktan alınan görüntüler ve açık kaynaklı multimodal modeller kullanılarak bazı görüntülerin yeniden altyazılandırılması, verilerin Soru-Cevap çiftleri olarak biçimlendirilmesi, örneğin Görüntüyü ayrıntılı olarak açıklayın.;

Tablo ve grafik verileri: DeepSeek-VL'den formatında ilgili tablo ve grafik verileri;

Görsel olarak oluşturulan veriler: birden fazla veri kümesinden görüntü-başlık çiftleri ve 2 milyon dahili veri;

Eğitim sırasında, altyazının yalnızca ilk cümlesi 25% olasılıkla rastgele kullanılır;

ImageNet örnekleri yalnızca ilk 120K eğitim adımında görünür, diğer veri kümelerinden görüntüler sonraki 60K adımda görünür;

Aşama 3

Denetimli ince ayarÖnceden eğitilmiş modellerin talimatları ve diyaloğu takip etme yeteneklerini geliştirmek için talimat ince ayar verileri kullanılarak ince ayar yapıldığı yer. Üreten kodlayıcı hariç tüm parametrelerde ince ayar. Cevapları denetlerken sistemi ve kullanıcı ipuçlarını maskeleme. Janus'un hem çok modlu anlama hem de üretme konusunda yeterliliğe sahip olmasını sağlamak için, modeller belirli görevler için ayrı ayrı ince ayarlanmamıştır. Bunun yerine, çeşitli senaryolarda çok yönlülük sağlamak için yalnızca metin diyalog verileri, çok modlu anlama verileri ve görsel üretim verilerinin bir karışımını kullanıyoruz;

Metin anlama: belirli kaynaklardan elde edilen verileri kullanır;

Çok modlu anlama: öğretim ayarlaması için çoklu kaynaklardan gelen verilerin kullanılması;

Görsel oluşturma: bazı Faz II veri kümelerinden görüntü-metin çiftlerinin bir alt kümesinin yanı sıra 4 milyon dahili veri kullanılarak;

Veri formatı şöyledir: Kullanıcı: \n Asistan: ;

Eğitim Hedefleri

Janus, çapraz entropi kayıp fonksiyonu kullanılarak eğitilen bir otoregresif modeldir, düz metin anlama ve çok modlu anlama görevleri için kayıp metin dizisinde hesaplanır. Görsel üretim görevleri için kayıp sadece görüntü dizisi üzerinde hesaplanır. Tasarımı basit tutmak için farklı görevlere farklı kayıp ağırlıkları atanmamıştır.

Akıl yürütme

Düz metin anlama ve çok modlu anlama için bir sonraki sözcüksel öğe tahmin yöntemini kullanarak, sözcüksel öğeler tahmin dağılımından sırayla örneklenir. Görüntü üretimi için sınıflandırıcısız bir önyükleme kullanılır.

Olası uzatmalar

Çok modlu anlama için, 1) daha güçlü bir görsel kodlayıcı seçilebilir ve 2) dinamik yüksek çözünürlüklü teknikler kullanılabilir;

Görme üretimi için, 1) daha ince taneli kodlayıcılar seçilebilir, 2) özellikle görme üretimi için tasarlanmış kayıp fonksiyonları kullanılabilir ve 3) nedensel dikkat ve paralel yöntemler birleştirilebilir;

3D nokta bulutları, haptikler, EEG ve kayıp modaliteleri için diğer girdileri entegre etme yeteneği ile daha fazla modalite;

Janus-Pro Yükseltmesi

Sınırlı eğitim verisi ve nispeten küçük model kapasitesi (1B) ile Janus, kısa ipuçları altında görüntü üretiminin zayıf temsili ve metinden görüntüye üretimin tutarsız kalitesi gibi bazı yönlerden eksiktir. Janus-Pro'nin mimarisi, aşağıdaki şekilde görülebileceği gibi Janus ile aynıdır:

Ana İyileştirmeler

Eğitim Stratejisi

Aşama 1: Eğitim adımlarının sayısını artırın ve ImageNet üzerinde tamamen eğitin;

2. Aşama: Artık ImageNet kullanmayın, eğitim için doğrudan normal metin-resim verilerini kullanın;

Aşama 3: Çok modlu veri, düz metin verisi ve metin-imaj verisi oranını 7:3:10'dan 5:1:4'e değiştirerek ince ayar sürecinde veri kümesi oranlarını değiştirin;

Veri Ölçeği

Multimodal anlayış

2. Aşama: Resim altyazısı için YFCC ve tablo ve grafik belgelerini anlamak için Doc-matrix dahil olmak üzere 90 milyon örnek ekleyin;

Aşama 3: DeepSeek-VL2'ye MEME anlayışı gibi ek veri kümeleri ekleyin;

Görsel üretim: gerçek dünya verileri düşük kalite içerebilir, bu da istikrarsız metinden görüntüye üretim ve zayıf estetik çıktı ile sonuçlanabilir. Janus-Pro, gerçek verilerin sentetik verilere oranının 1:1 olduğu tek tip bir ön eğitim aşaması (Aşama 2) ile 72 milyon sentetik estetik veri örneği kullanır;

Model Ölçeği

Model parametrelerini 7 milyar parametre ölçeğine ölçeklendirin;

Deneysel ayrıntılar

Janus ile karşılaştırıldığında, Janus-Pro deneylerinin ayrıntıları temelde aynıdır. Buna karşılık, daha büyük parametreli modelde daha fazla küme düğümü (16 ila 32) kullanılmıştır.

Janus-Pro eğitim hiperparametreleri

Yetersiz

Çok modlu anlama için, giriş çözünürlüğü 384×384 ile sınırlıdır ve bu da ince taneli görsel görevlerdeki performansı etkiler. Metinden görüntüye üretim için, düşük çözünürlük, üretilen sonuçlarda ayrıntı eksikliğine neden olur.

Benzer Yazılar

Bir yanıt yazın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir