完全解説：DeepSeek JanusからJanus-Proまで！- ヤヌスAI.Pro

メッセージJanusは、マルチモーダル理解と生成された視覚的コーディングを分離し、2つのタスク間の潜在的な衝突を緩和する、シンプルで統一された拡張可能なマルチモーダル理解・生成モデルである。将来的には、入力モダリティを追加して拡張することも可能である。Janus-Proはこの基盤の上に、学習戦略の最適化（学習ステップ数の増加、データ比率の調整など）、データの追加（合成データの使用など）、モデルサイズの拡大（70億パラメータまで）を行うことで、モデルのマルチモーダル理解およびテキストから画像への指示の順守能力を向上させています。

コード・アドレス

Janus Proアドレス

Janus-Pro は、前作Janusの発展版であり、具体的には、(1)最適化された学習戦略、(2)拡大された学習データ、(3)より大きなモデルサイズを含む。これらの改良により、Janus-Proは、マルチモーダル理解とテキストから画像への指示の順守能力において大きな進歩を遂げ、同時にテキストから画像への生成の安定性も向上させている。Janus-Proを紐解く前に、Janusについて復習しておこう。

ヤヌスを見直す

前身であるJanusは、統一されたマルチモーダル理解と生成のための自己回帰フレームワークであり、統一されたマルチモーダル理解と生成のためのビジュアルコーディングをデカップリングするために使用される。マルチモーダル理解については、通常、LLaVAに従って設計され、大規模な言語モデルが画像を理解できるようにするためのブリッジとして視覚コーダーを使用する。生成については、通常拡散モデルに基づいており、自己回帰法に基づいているものもある。マルチモーダル理解と生成タスクを統一するために、単一のトランスフォーマーを使用しようとするアプローチもあり、これは通常、両方のタスクの入力を処理するために単一の視覚コーダーを使用する。

しかし、マルチモーダル理解タスクと生成タスクでは、必要とされる表現に違いがある。マルチモーダル理解課題では、視覚エンコーダは高レベルの意味情報（例えば、物体のカテゴリーや視覚属性）の抽出を目的とし、出力には画像からの情報抽出だけでなく、複雑な意味推論が含まれ、エンコーダは主に高次元の意味表現に注目する。生成タスクは主に画像の局所的な詳細の生成と大域的な一貫性の維持に関係するため、空間構造とテクスチャの詳細の低次元のコード化された表現を必要とする。両タスクの表現を同じ空間で統一すると、矛盾が生じる可能性がある。

Janusは、マルチモーダル理解と生成のための2つの独立したビジュアル・コーディング・パスを持ち、2つの利点をもたらす：1) マルチモーダル理解と生成の異なる粒度要件から生じる競合を緩和する。2) 柔軟でスケーラブルであり、理解タスクと生成タスクの両方が、それぞれのドメインに特化した最先端の符号化技術を使用して符号化できるように切り離され、将来的には、点群、EEG信号、または音声データを入力し、統一されたTransformerを使用して処理することができる。

テキストを理解するために、テキストはLLMの組み込みトーケナイザーを使って離散IDに変換される；

マルチモーダル理解のために、SigLIPエンコーダ（筆者注：CosmosもGuardrailsセクションでSigLIPエンコーダを使用している）を使用して画像中の高次元の意味特徴を抽出し、抽出した特徴をAdaptor（2層MLP）を使用してLLMのテキスト特徴空間にマッピングする；

長辺は384ピクセルに調整され、短辺はRGB(127, 127, 127)を使って384ピクセルに塗りつぶされた；

視覚的生成のために、画像はVQ Tokenizerを用いて離散IDに変換され、各IDはAdaptor（2層MLP）を用いてLLMのテキスト特徴空間にマッピングされた；

短いエッジは384ピクセルにリサイズされ、長いエッジは384ピクセルにトリミングされた；

全体的なトレーニングは、8つのNvidia A100 GPUを搭載した16のノードを使用して行われた；

視覚生成タスクとマルチモーダル理解タスクの両方において、画像特徴列とテキスト特徴列は、LLMへの入力として一緒にリンクされる（本文ではDeepSeek-LLM 1.3Bを使用）；

LLMの内蔵予測ヘッドは、純粋なテキスト理解タスクとマルチモーダル理解タスクの両方でテキスト予測に利用され、ランダムに初期化された予測ヘッドは視覚生成タスクの画像予測に利用される。モデル全体は、特別に設計されたアテンションマスクを必要とせず、自己回帰的なフレームワークに準拠している。

ヤヌストレーニングは3段階に分かれている：

フェーズ1

トレインアダプターとイメージヘッド LLMが画像内の実体を理解し、初期の視覚的生成能力を持つことを可能にする；

マルチモーダルな理解のためには、SHareGPT4Vの125万件の画像-テキストペアキャプションデータを使用する：；

ビジュアル生成には、ImageNet1kの120万サンプルを使用：；

フェーズ2

統一事前トレーニングマルチモーダルコーパスを用いて、マルチモーダル理解と生成の統一的な事前学習を行う。この段階では、プレーンテキストデータ、マルチモーダル理解データ、視覚生成データが使用される。ImageNet-1kを使用した簡単な視覚生成学習と、それに続く、モデルのオープンドメインにおける視覚生成を強化するための一般的なテキスト-画像データの使用；

プレーンテキストデータ：DeepSeek-LLM学習済みコーパス；

インターリーブされた画像-テキストデータ：WikiHowとWITデータセット；

画像のキャプションデータ：複数のソースから画像を収集し、オープンソースのマルチモーダルモデルを使用して一部の画像に再キャプションを付け、データはQ&Aペアとしてフォーマットされています；

表形式データおよびグラフ・データ: 形式の DeepSeek-VL からの対応する表形式データおよびグラフ・データ；

視覚的に生成されたデータ：複数のデータセットから画像とキャプションのペア、および200万件の内部データ；

トレーニングでは、キャプションの最初の文だけが25%の確率でランダムに使用される；

ImageNetのサンプルは最初の120K学習ステップにのみ登場し、他のデータセットの画像はその後の60K学習ステップに登場する；

フェーズ3

監視付き微調整ここで、事前に訓練されたモデルは、指示や対話に従う能力を高めるために、指示微調整データを使用して微調整される。生成エンコーダ以外のすべてのパラメータを微調整。回答を監督する間、システムとユーザーのキューをマスキングする。Janusがマルチモーダル理解と生成の両方に熟達していることを保証するために、モデルは特定のタスクのために個別に微調整されることはない。その代わりに、テキストのみの対話データ、マルチモーダル理解データ、視覚的生成データを混合して使用し、様々なシナリオでの汎用性を確保する；

文章理解：特定の情報源からのデータを使用する；

マルチモーダルな理解：指導のチューニングのために複数のソースからのデータを使用する；

視覚的生成：第II期データセットの一部と400万件の内部データから画像とテキストのペアのサブセットを使用；

データ形式はUser: ￤アシスタント：；

トレーニングの目的

Janusはクロスエントロピー損失関数を用いて学習された自己回帰モデルであり、プレーンテキスト理解タスクとマルチモーダル理解タスクでは、損失はテキストシーケンスで計算される。視覚的生成タスクでは、損失は画像シーケンスのみで計算される。設計をシンプルに保つため、異なるタスクに異なる損失の重みは割り当てられていない。

推論

次の語彙要素予測法を用いて、平文理解とマルチモーダル理解のために、語彙要素は予測分布から順次サンプリングされる。画像生成には、分類器のないブートストラップを用いる。

延長の可能性

マルチモーダル理解のためには、1）より強力な視覚コーダーを選択し、2）動的な高解像度技術を使用することができる；

視覚生成のためには、1）よりきめ細かいエンコーダを選択する、2）視覚生成のために特別に設計された損失関数を使用する、3）因果的注意と並列法を組み合わせる、などが考えられる；

3D点群、ハプティクス、EEG、その他損失モダリティの入力を統合する能力を備えた、より多くのモダリティ；

Janus-Proアップグレード

Janus-ProのアーキテクチャはJanusのそれと同じで、下図で見ることができる：

主な改善点

トレーニング戦略

ステージ1：学習ステップ数を増やし、ImageNetで完全に学習する；

第2段階：ImageNetを使用せず、通常のテキスト-画像データを直接学習に使用する；

第3段階：微調整プロセスにおいて、マルチモーダルデータ、プレーンテキストデータ、テキスト対画像データの比率を7：3：10から5：1：4に変更することで、データセットの比率を変更する；

データスケール

マルチモーダルな理解

ステージ2：画像キャプション用のYFCCと表やグラフのドキュメント理解用のDoc-matrixを含む9000万サンプルを追加；

ステージ 3: MEME理解などのDeepSeek-VL2追加データセットの追加；

視覚的生成：実世界のデータには質の悪いものが含まれている可能性があり、その結果、テキストから画像への生成が不安定になったり、美的出力が悪くなったりする。Janus-Proでは、7200万サンプルの合成美的データを使用し、事前学習段階（ステージ2）では、実データと合成データの比率を1：1に統一している；

モデル・スケール

モデルパラメータを70億パラメータスケールにスケールする；

実験内容

Janusと比較すると、Janus-Pro実験の詳細は基本的に同じである。一方、パラメータが大きいモデルでは、より多くのクラスタノード（16から32）を使用した。

Janus-Proトレーニングハイパーパラメータ

不十分

マルチモーダル理解の場合、入力解像度は384×384に制限され、細かな視覚タスクのパフォーマンスに影響する。テキストから画像への生成では、解像度が低いため、生成結果の詳細さが不足する。

完全解説：ディープシーク・ヤヌスからJanus-Proまで！

ヤヌスを見直す