Bahar Festivali arifesinde DeepSeek-R1 modeli piyasaya sürüldü. Saf RL mimarisi ile CoT'un büyük yeniliklerinden dersler çıkarmış ve daha iyi performans göstermiştir. ChatGPT Matematik, kod ve mantıksal akıl yürütme konularında.
Ayrıca, açık kaynaklı model ağırlıkları, düşük eğitim maliyetleri ve ucuz API fiyatları DeepSeek'i internet genelinde bir hit haline getirmiş, hatta NVIDIA ve ASML'nin hisse senedi fiyatlarının bir süreliğine düşmesine neden olmuştur.
DeepSeek, popülerlik patlaması yaşarken, önceki nesil multimodal anlama ve üretmenin birleşik mimarisini miras alan ve eğitim stratejisini optimize ederek eğitim verilerini ve model boyutunu ölçeklendiren ve daha güçlü performans getiren multimodal büyük model Janus'un (Janus) güncellenmiş bir sürümü olan Janus-Pro'yi de piyasaya sürdü.


Janus-Pro
Janus-Pro çok modlu anlama görevlerini ve üretim görevlerini aynı anda işleyebilen, yani bir resmin içeriğini anlayabilen ve aynı zamanda metin üretebilen birleşik bir çok modlu dil modelidir (MLLM).
Çok modlu anlama ve üretme için görsel kodlayıcıları ayırır (yani, görüntü anlama girişi ve görüntü üretme girişi ve çıkışı için farklı belirteçler kullanılır) ve bunları birleşik bir otoregresif dönüştürücü kullanarak işler.
Gelişmiş bir çok modlu anlama ve üretme modeli olarak, önceki Janus modelinin yükseltilmiş bir versiyonudur.
Roma mitolojisinde Janus (Janus) çelişkiyi ve geçişi sembolize eden iki yüzlü bir koruyucu tanrıdır. İki yüzü vardır, bu da Janus modelinin görüntüleri anlayabildiğini ve üretebildiğini gösterir ki bu çok uygundur. Peki PRO tam olarak neyi yükseltti?
Janus, 1.3B'nin küçük bir modeli olarak, resmi bir sürümden çok bir önizleme sürümü gibidir. Birleştirilmiş çok modlu anlayış ve üretimi araştırır, ancak kararsız görüntü oluşturma efektleri, kullanıcı talimatlarından büyük sapmalar ve yetersiz ayrıntılar gibi birçok sorunu vardır.
Pro sürümü eğitim stratejisini optimize eder, eğitim veri setini artırır ve 1B modeli sağlarken seçim için daha büyük bir model (7B) sağlar.
Model mimarisi
Jaus-Pro ve Janus model mimarisi açısından aynıdır. (Sadece 1.3B! Janus çok modlu anlama ve üretmeyi birleştirir)

Temel tasarım ilkesi, çok modlu anlama ve üretimi desteklemek için görsel kodlamayı ayırmaktır. Janus-Pro, orijinal görüntü/metin girdisini ayrı ayrı kodlar, yüksek boyutlu özellikleri çıkarır ve bunları birleşik bir otoregresif Dönüştürücü aracılığıyla işler.
Çok modlu görüntü anlama, görüntü özelliklerini kodlamak için SigLIP kullanır (yukarıdaki şekilde mavi kodlayıcı) ve oluşturma görevi görüntüyü ayrıklaştırmak için VQ belirteçleyiciyi kullanır (yukarıdaki şekilde sarı kodlayıcı). Son olarak, tüm özellik dizileri işlenmek üzere LLM'ye girilir
Eğitim stratejisi
Eğitim stratejisi açısından, Janus-Pro daha fazla iyileştirme yapmıştır. Janus'un eski versiyonu, Aşama I'in görüntü anlama ve görüntü oluşturma için giriş adaptörünü ve görüntü oluşturma kafasını eğittiği, Aşama II'nin birleşik ön eğitim gerçekleştirdiği ve Aşama III'ün bu temelde anlama kodlayıcısına ince ayar yaptığı üç aşamalı bir eğitim stratejisi kullanıyordu. (Janus eğitim stratejisi aşağıdaki şekilde gösterilmiştir).

Ancak bu strateji, Aşama II'de metinden görüntüye oluşturma eğitimini bölmek için PixArt yöntemini kullanır ve bu da düşük hesaplama verimliliğine neden olur.
Bu amaçla, Aşama I'in eğitim süresini uzattık ve ImageNet verileriyle eğitim ekledik, böylece model sabit LLM parametreleriyle piksel bağımlılıklarını etkili bir şekilde modelleyebildi. Aşama II'de ImageNet verilerini attık ve eğitim için doğrudan metin-görüntü çifti verilerini kullandık, bu da eğitim verimliliğini artırdı. Buna ek olarak, Aşama III'teki veri oranını (çok modlu:yalnızca metin:görsel-anlamsal grafik verileri 7:3:10'dan 5:1:4'e) ayarladık ve görsel oluşturma yeteneklerini korurken çok modlu anlayışı geliştirdik.
Eğitim verisi ölçeklendirme
Janus-Pro ayrıca Janus'un eğitim verilerini çok modlu anlama ve görsel oluşturma açısından ölçeklendirir.
Çok modlu anlama: Aşama II ön eğitim verileri DeepSeek-VL2'ye dayanmaktadır ve görüntü başlığı verileri (YFCC gibi) ve tablo, grafik ve belge anlama verileri (Docmatix gibi) dahil olmak üzere yaklaşık 90 milyon yeni örnek içermektedir.
Aşama III denetimli ince ayar aşaması, modelin çoklu görev işleme ve diyalog yeteneklerindeki performansını artırmak için MEME anlayışını, Çince diyalog verilerini vb. daha fazla tanıtmaktadır.
Görsel üretim: Önceki sürümlerde düşük kaliteli ve yüksek gürültülü gerçek veriler kullanılıyordu, bu da metinle oluşturulan görüntülerin kararlılığını ve estetiğini etkiliyordu.
Janus-Pro yaklaşık 72 milyon sentetik estetik veri sunarak gerçek verilerin sentetik verilere oranını 1:1'e getirmektedir. Deneyler, sentetik verilerin model yakınsamasını hızlandırdığını ve üretilen görüntülerin kararlılığını ve estetik kalitesini önemli ölçüde artırdığını göstermiştir.
Model ölçeklendirme
Janus Pro model boyutunu 7B'ye genişletirken, Janus'un önceki sürümü görsel kodlamanın ayrıştırılmasının etkinliğini doğrulamak için 1,5B DeepSeek-LLM kullanmıştır. Deneyler, daha büyük bir LLM'nin multimodal anlama ve görsel üretimin yakınsamasını önemli ölçüde hızlandırdığını ve yöntemin güçlü ölçeklenebilirliğini daha da doğruladığını göstermektedir.


Deneyde temel dil modeli olarak DeepSeek-LLM (1.5B ve 7B, maksimum 4096 diziyi destekler) kullanılmıştır. Çok modlu anlama görevi için görsel kodlayıcı olarak SigLIP-Large-Patch16-384 kullanılır, kodlayıcının sözlük boyutu 16384, görüntü alt örnekleme katsayısı 16'dır ve hem anlama hem de üretme adaptörleri iki katmanlı MLP'lerdir.
Aşama II eğitimi 270K erken durdurma stratejisi kullanır, tüm görüntüler 384×384 çözünürlüğe eşit olarak ayarlanır ve eğitim verimliliğini artırmak için dizi paketleme kullanılır. Janus-Pro, HAI-LLM kullanılarak eğitilmiş ve değerlendirilmiştir. 1.5B/7B sürümleri sırasıyla 9/14 gün boyunca 16/32 düğüm (düğüm başına 8×Nvidia A100 40GB) üzerinde eğitilmiştir.
Model değerlendirmesi
Janus-Pro çok modlu anlama ve üretme açısından ayrı ayrı değerlendirilmiştir. Genel olarak, anlama biraz zayıf olabilir, ancak aynı boyuttaki açık kaynak modelleri arasında mükemmel olarak kabul edilir (büyük ölçüde sabit giriş çözünürlüğü ve OCR yetenekleri ile sınırlı olduğunu tahmin edin).
Janus-Pro-7B, MMBench benchmark testinde 79.2 puan alarak birinci kademe açık kaynak modellerin seviyesine yakın bir puan almıştır (aynı boyuttaki InternVL2.5 ve Qwen2-VL 82 puan civarındadır). Bununla birlikte, önceki nesil Janus'a göre iyi bir gelişmedir.
Görüntü oluşturma açısından, önceki nesle göre iyileşme daha da önemlidir ve açık kaynaklı modeller arasında mükemmel bir seviye olarak kabul edilir. Janus-Pro'nin GenEval benchmark testindeki skoru (0.80) DALL-E 3 (0.67) ve Stable Diffusion 3 Medium (0.74) gibi modelleri de aşmaktadır.

