Penjelasan lengkapnya: dari DeepSeek Janus hingga Janus-Pro!

Bawa Pulang Pesan: Janus adalah model pemahaman dan pembangkitan multimodal yang sederhana, terpadu, dan dapat diperluas yang memisahkan pemahaman multimodal dan pengkodean visual yang dihasilkan, sehingga mengurangi potensi konflik di antara kedua tugas tersebut. Model ini dapat diperluas untuk memasukkan modalitas input tambahan di masa mendatang. Janus-Pro dibangun di atas fondasi ini dengan mengoptimalkan strategi pelatihan (termasuk meningkatkan jumlah langkah pelatihan, menyesuaikan rasio data, dll.), Menambahkan lebih banyak data (termasuk penggunaan data sintetis, dll.), dan meningkatkan ukuran model (hingga 7 miliar parameter), yang mengarah pada kemajuan dalam pemahaman multimodal model dan kemampuan kepatuhan terhadap instruksi teks-ke-gambar.

Alamat kode

Alamat Janus Pro

Janus-Pro adalah versi lanjutan dari karya Janus sebelumnya, khususnya, termasuk (1) strategi pelatihan yang dioptimalkan, (2) data pelatihan yang diperluas, dan (3) ukuran model yang lebih besar. Dengan semua perbaikan ini, Janus-Pro membuat kemajuan yang signifikan dalam pemahaman multimodal dan kemampuan mengikuti instruksi teks-ke-gambar, sekaligus meningkatkan stabilitas pembuatan teks-ke-gambar. Sebelum membongkar Janus-Pro, mari kita tinjau Janus.

Daftar Isi

Mengulas Janus

Janus pendahulunya adalah kerangka kerja autoregresif untuk pemahaman dan pembuatan multimodal terpadu, yang digunakan untuk memisahkan pengkodean visual untuk pemahaman dan pembuatan multimodal terpadu. Untuk pemahaman multimodal, desain biasanya mengikuti LLaVA, menggunakan pengkodean visual sebagai jembatan untuk memungkinkan model bahasa yang besar untuk memahami gambar. Untuk pembangkitan, biasanya didasarkan pada model difusi, dan beberapa didasarkan pada metode autoregresif. Beberapa pendekatan mencoba menggunakan Transformer tunggal untuk mencoba menyatukan tugas pemahaman multimodal dan pembangkitan, yang biasanya menggunakan satu visual coder untuk memproses input dari kedua tugas tersebut.

Namun, terdapat perbedaan dalam representasi yang diperlukan untuk tugas pemahaman multimodal dan tugas pembuatan. Dalam tugas pemahaman multimodal, penyandi visual bertujuan untuk mengekstraksi informasi semantik tingkat tinggi (misalnya, kategori objek atau atribut visual), dan outputnya tidak hanya melibatkan ekstraksi informasi dari gambar, tetapi juga penalaran semantik yang rumit, dengan penyandi yang berfokus pada representasi semantik dimensi tinggi. Tugas pembangkitan terutama berkaitan dengan menghasilkan detail lokal dan mempertahankan konsistensi global dalam gambar, sehingga memerlukan representasi kode dimensi rendah dari struktur spasial dan detail tekstur. Menyatukan representasi kedua tugas dalam ruang yang sama bisa menimbulkan konflik.

Janus berisi 2 jalur pengkodean visual yang independen untuk pemahaman dan pembangkitan multimodal, dan membawa dua manfaat: 1) mengurangi konflik yang berasal dari persyaratan perincian yang berbeda dari pemahaman dan pembangkitan multimodal, dan 2) fleksibel dan terukur, memisahkan sehingga tugas pemahaman dan pembangkitan dapat dikodekan menggunakan teknik pengkodean mutakhir yang spesifik untuk domainnya, dan di masa mendatang dapat diumpankan dengan awan titik, sinyal EEG, atau data audio, dan diproses menggunakan Transformer terpadu.

Untuk pemahaman teks, teks dikonversi menjadi ID diskrit menggunakan Tokenizer bawaan LLM;

Untuk pemahaman multimodal, fitur semantik dimensi tinggi pada gambar diekstraksi menggunakan penyandi SigLIP (catatan penulis: Cosmos juga menggunakan penyandi SigLIP pada bagian Pagar Pembatas), dan fitur yang diekstraksi dipetakan ke dalam ruang fitur teks LLM menggunakan Adaptor (MLP 2 lapis);

Sisi panjang disesuaikan ke 384 piksel dan sisi pendek diisi ke 384 piksel dengan menggunakan RGB (127, 127, 127);

Untuk pembuatan visual, gambar dikonversi menjadi ID diskrit menggunakan VQ Tokenizer, dan setiap ID dipetakan ke dalam ruang fitur tekstual LLM menggunakan Adaptor (2-layer MLP);

Tepi pendek diubah ukurannya menjadi 384 piksel dan tepi panjang dikrop menjadi 384 piksel;

Keseluruhan pelatihan dilakukan dengan menggunakan 16 node, masing-masing berisi 8 GPU Nvidia A100;

Untuk tugas pembuatan visual dan pemahaman multimodal, urutan fitur gambar dan urutan fitur teks dihubungkan bersama sebagai input ke LLM (DeepSeek-LLM 1.3B digunakan dalam teks);

Kepala prediksi bawaan LLM digunakan untuk prediksi teks dalam tugas pemahaman teks murni dan pemahaman multimodal, sedangkan kepala prediksi yang diinisialisasi secara acak digunakan untuk prediksi gambar dalam tugas pembangkitan visual. Seluruh model mengikuti kerangka kerja autoregresif tanpa memerlukan topeng perhatian yang dirancang khusus.

Pelatihan Janus dibagi menjadi 3 fase:

Fase 1

Adaptor Kereta Api dan Kepala Gambar untuk menciptakan hubungan antara elemen linguistik dan visual dalam ruang penyematan, memungkinkan LLM untuk memahami entitas dalam gambar dan memiliki kemampuan pembangkitan visual awal;

Untuk pemahaman multimodal, gunakan 1,25 juta data teks gambar-teks yang dipasangkan dari SHareGPT4V dalam format: ;

Untuk pembuatan visual, menggunakan 1,2 juta sampel dari ImageNet1k dalam format: <nama kategori ;

Fase 2

Pra-pelatihan terpadumenggunakan korpus multimodal untuk pra-pelatihan terpadu guna mempelajari pemahaman dan pembangkitan multimodal. Data teks biasa, data pemahaman multimodal, dan data pembangkitan visual digunakan dalam fase ini. Pelatihan pembangkitan visual sederhana menggunakan ImageNet-1k, diikuti dengan penggunaan data teks-ke-gambar umum untuk meningkatkan pembangkitan visual dalam domain terbuka model;

Data teks biasa: Korpus yang sudah dilatih DeepSeek-LLM;

Data gambar-teks yang disisipkan: Kumpulan data WikiHow dan WIT;

Data Keterangan Gambar: Gambar dari berbagai sumber dan memberikan keterangan ulang pada beberapa gambar menggunakan model multimodal sumber terbuka, dengan data yang diformat sebagai pasangan tanya jawab, misalnya Jelaskan gambar secara detail.;

Data tabular dan grafis: data tabular dan grafis yang sesuai dari DeepSeek-VL dalam format <pertanyaan;

Data yang dihasilkan secara visual: pasangan keterangan gambar dari beberapa set data dan 2 juta data internal;

Selama pelatihan, hanya kalimat pertama dari teks yang digunakan secara acak dengan probabilitas 25%;

Sampel ImageNet hanya muncul pada 120 ribu langkah pelatihan awal, dengan gambar dari dataset lain muncul pada 60 ribu langkah berikutnya;

Fase 3

Penyempurnaan yang diawasidi mana model yang telah dilatih sebelumnya disetel dengan baik menggunakan data penyetelan instruksi untuk meningkatkan kemampuannya dalam mengikuti instruksi dan dialog. Menyempurnakan semua parameter kecuali encoder pembangkit. Menyamarkan sistem dan isyarat pengguna sambil mengawasi jawaban. Untuk memastikan bahwa Janus memiliki kemahiran dalam pemahaman dan pembangkitan multimodal, model tidak disetel secara terpisah untuk tugas-tugas tertentu. Sebaliknya, kami menggunakan campuran data dialog teks saja, data pemahaman multimodal, dan data pembangkitan visual untuk memastikan keserbagunaan dalam berbagai skenario;

Pemahaman teks: menggunakan data dari sumber tertentu;

Pemahaman multimodal: menggunakan data dari berbagai sumber untuk penyetelan instruksi;

Pembuatan visual: menggunakan subset pasangan gambar-teks dari beberapa set data Tahap II serta 4 juta data internal;

Format datanya adalah: Pengguna: \n Asisten: ;

Tujuan Pelatihan

Janus adalah model autoregresif yang dilatih menggunakan fungsi kehilangan cross-entropi, untuk tugas pemahaman teks biasa dan pemahaman multimodal, kehilangan dihitung pada urutan teks. Untuk tugas pembangkitan visual, kehilangan dihitung hanya pada urutan gambar. Untuk menjaga desain tetap sederhana, tidak ada bobot kerugian yang berbeda yang ditetapkan untuk tugas yang berbeda.

Penalaran

Dengan menggunakan metode prediksi elemen leksikal berikutnya, untuk pemahaman teks biasa dan pemahaman multimodal, elemen leksikal diambil sampelnya secara berurutan dari distribusi prediksi. Untuk pembuatan gambar, bootstrap tanpa pengklasifikasi digunakan.

Kemungkinan ekstensi

Untuk pemahaman multimodal, 1) penyandi visual yang lebih kuat dapat dipilih, dan 2) teknik resolusi tinggi yang dinamis dapat digunakan;

Untuk pembangkitan penglihatan, 1) encoder yang lebih halus dapat dipilih, 2) menggunakan fungsi kehilangan yang dirancang khusus untuk pembangkitan penglihatan, dan 3) menggabungkan perhatian kausal dan metode paralel;

Lebih banyak modalitas, dengan kemampuan untuk mengintegrasikan point cloud 3D, haptics, EEG, dan input lainnya untuk modalitas kehilangan;

Peningkatan Janus-Pro

Dengan data pelatihan yang terbatas dan kapasitas model yang relatif kecil (1B), Janus memiliki kekurangan dalam beberapa aspek, seperti representasi yang buruk dalam pembuatan gambar di bawah isyarat yang pendek dan kualitas pembuatan teks-ke-gambar yang tidak konsisten Arsitektur Janus-Pro sama dengan Janus, yang dapat dilihat pada gambar di bawah ini:

Peningkatan Utama

Strategi Pelatihan

Tahap 1: Tingkatkan jumlah langkah pelatihan dan latih sepenuhnya pada ImageNet;

Tahap 2: Tidak lagi menggunakan ImageNet, langsung gunakan data teks-ke-gambar biasa untuk pelatihan;

Tahap 3: Memodifikasi rasio dataset dalam proses fine-tuning dengan mengubah rasio data multimodal, data teks biasa, dan data teks-ke-gambar dari 7:3:10 menjadi 5:1:4;

Skala Data

Pemahaman multimodal

Tahap 2: Menambahkan 90 juta sampel, termasuk YFCC untuk keterangan gambar dan Doc-matrix untuk pemahaman dokumen tabel dan bagan;

Tahap 3: Tambahkan dataset tambahan DeepSeek-VL2 seperti pemahaman MEME;

Pembuatan visual: data dunia nyata mungkin mengandung kualitas yang buruk, sehingga menghasilkan pembuatan teks-ke-gambar yang tidak stabil dan hasil estetika yang buruk, Janus-Pro menggunakan 72 juta sampel data estetika sintetis, dengan fase pra-pelatihan yang seragam (Tahap 2) dengan rasio 1:1 antara data nyata dan data sintetis;

Skala Model

Skala parameter model hingga 7 miliar skala parameter;

Detail eksperimen

Dibandingkan dengan Janus, rincian eksperimen Janus-Pro pada dasarnya sama. Namun, model dengan parameter yang lebih besar menggunakan lebih banyak node klaster (16 hingga 32).

Hiperparameter pelatihan Janus-Pro

Tidak mencukupi

Untuk pemahaman multimodal, resolusi input dibatasi hingga 384×384, sehingga memengaruhi performa pada tugas visual yang berbutir halus. Untuk pembuatan teks-ke-gambar, resolusi rendah menghasilkan hasil yang kurang detail dalam hasil yang dihasilkan.

Penjelasan lengkapnya: dari DeepSeek Janus hingga Janus-Pro!

Mengulas Janus