Patlama! DeepSeek'in Çin Yeni Yılı hediyesi - çok modlu model Janus-Pro'nin ayrıntılı bir açıklaması

DeepSeek'in en yeni Janus-Pro modeli multimodal yapay zekanın "sol ve sağ beyinlerini" doğrudan birbirine bağlar!

Görüntü ve metin anlama ve görüntü oluşturma işlemlerini aynı anda yapabilen bu iki yüzlü katil, kendi geliştirdiği çerçevesiyle sektörün kurallarını yeniden yazıyor.

Bu, işlevlerin basit bir üst üste binmesi değildir, ancak görsel kodlama yolunu ayırarak, model gerçek "bir zihin, iki kullanım" elde etmiştir.

Geleneksel çok modlu modeller yazmak ve çizmek için aynı eli kullanmaya benzerken, Janus-Pro yapay zekayı doğrudan iki sinir sistemi ile donatır!

Çerçeve devrimi: yüzyıllık çok modluluk sorununu çözmek

Janus-Pro'nin en acımasız yeniliği, görsel kodlamayı iki bağımsız kanala bölmektir.

Bu, yapay zekayı anlama gözü ve yaratma eliyle donatmak gibidir, böylece model artık "resim tanımlama" ve "metinden görüntüye" işlem yaparken zorlanmayacaktır.

En büyük atılımı, yepyeni birleşik mimari tasarımında yatmaktadır. Bu mimari üç temel bileşenden oluşmaktadır:

Otomatik kodlayıcı: temel dil modeli olarak

SigLIP-L@384: görüntü anlama kodlamasından sorumludur

LlamaGen tabanlı VQ-VAE: görüntü üretimi için

Birleştirilmiş bir Transformatör mimarisini korurken görsel kodlamayı bağımsız yollara ayıran Janus-Pro, görsel kodlayıcıdaki önceki modellerin rol çatışmasını ustaca çözer.

@reach_vb mimarideki temel atılıma dikkat çekiyor:

Model DeepSeek-LLM-1.5b/7b üzerine inşa edilmiştir, 384×384 görüntü girdisini işlemek için SigLIP-L kullanır ve kodlama sürecini göreve özgü yollarla ayrıştırır

Bu tasarım, modelin tek bir Transformatör mimarisini korurken çok modlu görevler arasında sorunsuz bir şekilde geçiş yapmasını sağlar.

Eğitim stratejisi: üç aşamalı başarıya giden evrimsel yol

DeepSeek ekibi dikkatle tasarlanmış üç aşamalı bir eğitim süreci benimsemiştir:

Aşama 1: Görsel ve dilsel öğeler arasında kavramsal bağlantılar kurmak için ImageNet veri kümesi üzerinde yeni parametreler eğitin

Aşama 2: Tam parametre ince ayarı için çok modlu bir hibrit veri setinin tanıtılması

Aşama 3: Denetimli ince ayar yoluyla komut takip ve diyalog yeteneklerini geliştirin

Veri oranında da yenilikçi ayarlamalar yapılmıştır:

Görüntü anlama görevi: 50% (önemli bir artış)

Görüntü oluşturma görevi: 40

Metin görevi: 10%

iScienceLuvr eğitimin sırrına dikkat çekiyor:

İnce ayarın üçüncü aşamasında metin görevlerinin oranı kasıtlı olarak azaltılmıştır

Bu da modeli hesaplama gücünü modlar arası dönüşüme odaklamaya zorlar

Performans ustası

Bu "çok yönlü" canavar iki temel ölçütte ortalığı kasıp kavuruyor!

Resmi testler, Janus-Pro'nin yalnızca önceki birleşik modeli geçmekle kalmayıp, özel modellerle bile başa baş mücadele edebildiğini gösteriyor - anlama görevinde LLaVA kadar yüksek puan alıyor ve nesil kalitesinde DALL-E 3'ü geride bırakıyor!

GenEval puanı 0,8 ile SD3-Medium'u utandırıyor

ve 84.19 DPG-Bench puanı ile görsel yaratım kalitesi profesyonel tasarımcılarınkine yakındır

Bu, 72 milyon sentetik görüntüden oluşan bir eğitim stratejisine ve modeli tam anlamıyla bir "çok modlu ustaya" dönüştüren üç aşamalı eğitime (adaptör eğitimi → birleşik ön eğitim → denetimli ince ayar) dayanmaktadır.

@dr_cintas gerçek ölçümlerin bir karşılaştırmasını yayınladı:

iPhone'da 4 bitlik nicelleştirilmiş bir sürüm çalıştırıldığında, çıkarım hızı yaklaşık 60 belirteç/s'dir

Oluşturulan 384×384 küçük resim aslında plaka metnini okuyabilir

Çok modlu anlama kıyaslama testinde, Janus-Pro-7B şaşırtıcı bir güç göstermiştir:

PAPA: 87.4%

MME-PT: 1567.1

MMBench: 79,2

SEED: 72.1

MMMU: 41.0

MM-Vet: 50.0

Görüntü oluşturma açısından model, 0,8 GenEval puanı ve 84,19 DPG-Bench puanı elde ederek DALL-E 3 ve SD3-Medium gibi birçok ana akım modeli geride bıraktı.

MIT açık kaynak: oynamaktan çekinmeyin!

DeepSeek bu kez durumu tersine çevirdi - 7B/1B ikili sürümü tamamen açık kaynak kodlu ve MIT lisansı ticari değişikliklere izin veriyor!

Hugging Face hemen indirilebilir ve 1B hafif sürümü bile bir iPhone'da yerel olarak çalıştırılabilir.

Geliştirici @angrypenguinPNG canlı bir gösteri yaptı:

"Future City Night Scene" yazın ve saniyeler içinde bir siberpunk sokak görüntüsü belirsin

Sahnenin ayrıntılarını incelemek için yakınlaştırın ve model neon ışıkların gradyanını doğru bir şekilde tanımlayabilir

Pratik değer: giriş engelinin azaltılması

Farklı senaryoların ihtiyaçlarını karşılamak için DeepSeek iki versiyon sunmaktadır:

Janus-Pro-7B: güçlü performansa sahip tam sürüm

Janus-Pro-1B: doğrudan tarayıcıda çalıştırılabilen hafif bir sürüm

Her iki sürüm de Hugging Face platformunda açık kaynak kodludur ve MIT lisansı altında yayınlanmıştır, böylece geliştiriciler bunları özgürce kullanabilir ve değiştirebilir.

DeepSeek'in kapsamlı atılımı

Şimdi en heyecan verici soru şu: anlama ve üretme artık iki ayrı model gerektirmediğinde, mevcut yapay zeka uygulama mimarisi toplu olarak bozulacak mı?

Hala tek modlu uygulamalarla mücadele edenler, sol ve sağ beyinler için işbirliğine dayalı uygulamalar geliştirmeyi düşünmelidir.

Sonuçta, aynı anda hem metin hem de grafiklerle oynayabilen bir model, çok modluluğun gerçek bir örneğidir.

Janus-Pro'nin piyasaya sürülmesinin DeepSeek'in son zamanlarda gerçekleştirdiği bir dizi büyük atılımdan sadece biri olduğunu belirtmek gerekir:

Perplexity, derin web araması için DeepSeek R1 modelini entegre etti

DeepSeek R1'in damıtılmış sürümü iPhone'da 60 belirteç/sn yerel çıkarım hızına ulaştı

DeepSeek Yapay Zeka Asistanı App Store ücretsiz listesinin zirvesine yükseldi

ve Groq platformunda son derece hızlı çıkarım performansı gösterdi.

Bu başarılar DeepSeek'in yapay zeka alanındaki kapsamlı gücünü göstermektedir ve Janus-Pro'nin çığır açan ilerlemesi çok modlu yapay zekanın geliştirilmesi için yeni yönler açmıştır.

Janus pro İlgili bağlantılar ve belgeler

Proje adresi:

GitHub deposu

Teknik Rapor

Model indirmeleri:

Janus-Pro-7B

Janus-Pro-1B

Hızlı bir deneyim:

Dağıtım yok, ücretsiz, çevrimiçi kullanım janus pro

Referans belgeleri:

Hızlı başlangıç kılavuzu

DeepSeek resmi etkinliği

Son olarak şunu söylemek isteriz: Sam Altman'ın şirket adı, çizdiği pasta ve düşündüğü yol, zekanın sınırlarını derinlemesine keşfetmeye devam edecek olan bu merak odaklı Çinli şirkete geçiyor gibi görünüyor!

Benzer Yazılar

Bir yanıt yazın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir