Ledakan! DeepSeekHadiah Tahun Baru Imlek-sebuah penjelasan rinci tentang model multimoda Janus-Pro
Model Janus-Pro terbaru dari DeepSeek secara langsung menghubungkan "otak kiri dan kanan" dari AI multimodal!
Pembunuh bermuka dua ini, yang secara simultan dapat melakukan pemahaman gambar dan teks serta menghasilkan gambar, menulis ulang aturan industri dengan kerangka kerja yang dikembangkan sendiri.
Ini bukanlah superposisi fungsi yang sederhana, tetapi dengan memisahkan jalur pengkodean visual, model ini telah mencapai "satu pikiran, dua kegunaan" yang sesungguhnya.
Model multimodal tradisional seperti menggunakan tangan yang sama untuk menulis dan menggambar, sementara Janus-Pro secara langsung melengkapi AI dengan dua sistem saraf!
Revolusi kerangka kerja: memecahkan masalah multimodalitas yang telah berusia seabad
Inovasi yang paling kejam dari Janus-Pro adalah membagi pengkodean visual ke dalam dua saluran independen.
Ini seperti melengkapi AI dengan mata pemahaman dan tangan kreasi, sehingga model tidak lagi kesulitan ketika memproses "deskripsi gambar" dan "teks-ke-gambar".
Terobosan terbesarnya terletak pada desain arsitektur terpadu yang baru. Arsitektur ini terdiri dari tiga komponen inti:
Autoencoder: sebagai model bahasa inti
SigLIP-L@384: bertanggung jawab untuk penyandian pemahaman gambar
VQ-VAE berdasarkan LlamaGen: untuk menghasilkan gambar
Dengan memisahkan pengkodean visual menjadi jalur independen sambil mempertahankan arsitektur Transformer yang terpadu, Janus-Pro dengan cerdik memecahkan konflik peran model sebelumnya dalam pengkodean visual.
@reach_vb menunjukkan terobosan utama dalam arsitekturnya:
Model ini dibangun di atas DeepSeek-LLM-1.5b/7b, menggunakan SigLIP-L untuk memproses input gambar 384 × 384, dan memisahkan proses penyandian melalui jalur khusus tugas
Desain ini memungkinkan model ini untuk beralih di antara tugas multimodal secara mulus sambil mempertahankan arsitektur Transformer tunggal.
Strategi pelatihan: jalur evolusi menuju kesuksesan tiga langkah
Tim DeepSeek mengadopsi proses pelatihan tiga tahap yang dirancang dengan cermat:
Tahap 1: Melatih parameter baru pada dataset ImageNet untuk membangun hubungan konseptual antara elemen visual dan linguistik
Tahap 2: Memperkenalkan dataset hibrida multimodal untuk penyempurnaan parameter penuh
Tahap 3: Tingkatkan kemampuan mengikuti perintah dan dialog melalui penyempurnaan yang diawasi
Penyesuaian inovatif juga telah dilakukan pada rasio data:
Tugas pemahaman gambar: 50% (peningkatan yang signifikan)
Tugas pembuatan gambar: 40
Tugas teks: 10%
@iScienceLuvr menunjukkan rahasia pelatihan:
Proporsi tugas teks sengaja dikurangi selama tahap ketiga penyempurnaan
Hal ini memaksa model untuk memfokuskan daya komputasinya pada konversi lintas-modal
Master kinerja
Monster "serba bisa" ini sangat hebat dalam dua metrik inti!
Pengujian resmi menunjukkan bahwa Janus-Pro tidak hanya mengalahkan model terpadu sebelumnya, tetapi bahkan dapat menghadapi model khusus secara head-to-head - mencetak skor setinggi LLaVA dalam tugas pemahaman dan mengungguli DALL-E 3 dalam kualitas generasi!
Dengan skor GenEval 0,8, skor ini membuat SD3-Medium malu
dan skor DPG-Bench 84,19, kualitas kreasi visualnya mendekati kualitas kreasi desainer profesional
Hal ini didasarkan pada strategi pelatihan 72 juta gambar sintetis dan tiga tahap pelatihan (pelatihan adaptor → pra-pelatihan terpadu → penyempurnaan yang diawasi), yang secara harfiah mengubah model menjadi "master multi-modal".
@dr_cintas memposting perbandingan pengukuran aktual:
Menjalankan versi terkuantisasi 4-bit pada iPhone, kecepatan inferensi hampir 60 token/s
Gambar mini 384×384 yang dihasilkan benar-benar dapat membaca teks pelat nomor
Dalam uji tolok ukur pemahaman multimodal, Janus-Pro-7B menunjukkan kekuatan yang mengagumkan:
PAUS: 87.4%
MME-PT: 1567.1
MMBench: 79,2
BIBIT: 72,1
MMMU: 41.0
MM-Vet: 50.0
Dari segi pembangkitan gambar, model ini mencapai skor GenEval 0,8 dan skor DPG-Bench 84,19, melampaui banyak model utama, termasuk DALL-E 3 dan SD3-Medium.
Sumber terbuka MIT: jangan ragu untuk bermain!
DeepSeek telah membalikkan keadaan kali ini - versi ganda 7B/1B sepenuhnya open source, dan lisensi MIT mengizinkan modifikasi komersial!
Hugging Face bisa langsung diunduh, dan bahkan versi ringan 1B bisa dijalankan secara lokal di iPhone.
Pengembang @angrypenguinPNG memberikan demonstrasi langsung:
Masukkan "pemandangan malam kota masa depan" dan tampilan jalan cyberpunk muncul dalam hitungan detik
Lakukan zoom in untuk mencermati detail pemandangan, dan model dapat secara akurat menggambarkan gradien lampu neon
Nilai praktis: menurunkan hambatan untuk masuk
Untuk memenuhi kebutuhan skenario yang berbeda, DeepSeek menyediakan dua versi:
Janus-Pro-7B: versi lengkap, dengan performa yang dahsyat
Janus-Pro-1B: versi ringan yang dapat dijalankan langsung di browser
Kedua versi ini telah bersumber terbuka pada platform Hugging Face dan dirilis di bawah lisensi MIT, sehingga para pengembang dapat dengan bebas menggunakan dan memodifikasinya.
Terobosan komprehensif DeepSeek
Sekarang pertanyaan yang paling menarik adalah: ketika pemahaman dan generasi tidak lagi membutuhkan dua model yang terpisah, apakah arsitektur aplikasi AI yang ada saat ini akan terganggu secara kolektif?
Mereka yang masih bergelut dengan aplikasi modalitas tunggal harus mempertimbangkan untuk mengembangkan aplikasi kolaboratif untuk otak kiri dan kanan.
Lagi pula, model yang secara simultan dapat bermain dengan teks dan grafik adalah perwujudan multimodalitas yang sesungguhnya.
Perlu dicatat bahwa peluncuran Janus-Pro hanyalah salah satu dari serangkaian terobosan besar baru-baru ini oleh DeepSeek:
Perplexity telah mengintegrasikan model DeepSeek R1 untuk pencarian web dalam
Versi suling DeepSeek R1 mencapai kecepatan inferensi lokal 60 token/s pada iPhone
Asisten AI DeepSeek telah melonjak ke posisi teratas dalam daftar gratis App Store
dan mendemonstrasikan kinerja inferensi yang sangat cepat pada platform Groq.
Pencapaian ini menunjukkan kekuatan komprehensif DeepSeek di bidang AI, dan kemajuan terobosan Janus-Pro telah membuka arah baru untuk pengembangan AI multimodal.
Janus pro Tautan dan dokumen terkait
Alamat proyek:
Unduhan model:
Pengalaman yang cepat:
Tidak ada penyebaran, gratis, penggunaan online janus pro
Dokumentasi referensi:
Akhirnya, kami ingin mengatakan: Nama perusahaan Sam Altman, kue yang telah dilukisnya, dan jalan yang telah dipikirkannya tampaknya akan diteruskan ke perusahaan China yang didorong oleh rasa ingin tahu ini, yang akan melanjutkan eksplorasi mendalam tentang batas-batas kecerdasan!