爆発! ディープシーク春節の贈り物-マルチモーダルモデルJanus-Proの詳細解説
ディープシークの最新モデルJanus-Pro マルチモーダルAIの「左脳」と「右脳」を直結させる!
画像とテキストの理解と画像生成を同時にこなすこの二刀流キラーは、独自開発のフレームワークで業界のルールを塗り替えようとしている。
これは単純な機能の重ね合わせではなく、視覚的な符号化経路を切り離すことで、このモデルは真の「一心同体、二用」を実現したのである。
従来のマルチモーダルモデルは、同じ手で字を書いたり絵を描いたりするようなものだが、Janus-ProはAIに2つの神経システムを直接装備させる!
フレームワーク革命:マルチモダリティの100年来の問題を解決する
Janus-Proの最も冷酷な革新は、視覚エンコードを2つの独立したチャンネルに分割したことだ。
それは、AIに「理解の目」と「創造の手」を装備させるようなもので、モデルが「画像描写」や「テキストから画像への変換」を処理する際に苦労することがなくなる。
その最大のブレークスルーは、まったく新しい統一アーキテクチャ設計にある。このアーキテクチャは、3つのコア・コンポーネントで構成されている:
オートエンコーダ:コア言語モデルとして
SigLIP-L@384:画像理解のエンコーディングを担当
LlamaGenに基づくVQ-VAE:画像生成用
統一されたトランスフォーマーアーキテクチャを維持しながら、ビジュアルエンコーディングを独立したパスに切り離すことで、Janus-Proは、ビジュアルエンコーダーにおける従来のモデルの役割の衝突を独創的に解決している。
Reach_vbは、このアーキテクチャーの重要なブレークスルーを指摘している:
モデルはDeepSeek-LLM-1.5b/7bで構築され、384×384の画像入力を処理するためにSigLIP-Lを使用し、タスク固有のパスを介してエンコード処理を切り離します。
この設計により、単一のトランスフォーマー・アーキテクチャーを維持しながら、マルチモーダルなタスクをシームレスに切り替えることができる。
トレーニング戦略:3段階の成功への進化の道
ディープシーク・チームは、入念に設計された3段階のトレーニング・プロセスを採用した:
ステージ1:視覚的要素と言語的要素の間の概念的接続を確立するために、ImageNetデータセットで新しいパラメータを訓練する。
ステージ2:フルパラメーター微調整のためのマルチモーダルハイブリッドデータセットの導入
ステージ3:スーパーバイズド・ファインチューニングによる指揮官追従と対話能力の向上
データ比率にも革新的な調整が加えられた:
画像理解課題:50%(有意な増加)
画像生成タスク:40
テキストタスク: 10%
iScienceLuvrがトレーニングの秘訣を指摘:
第3段階の微調整では、テキストタスクの割合を意図的に減らした。
このため、モデルはクロスモーダル変換に計算能力を集中させることになる。
パフォーマンス・マスター
この "オールラウンダー "の怪物は、2つの主要指標で大活躍している!
公式テストによれば、Janus-Proは従来の統一モデルを凌ぐだけでなく、専門モデルに真っ向勝負を挑むことさえできる。理解力タスクではLLaVAと同等のスコアを記録し、世代クオリティではDALL-E 3を上回る!
GenEvalのスコアは0.8で、SD3-Mediumをしのぐ。
DPG-Benchのスコアは84.19で、ビジュアル制作の品質はプロのデザイナーのそれに近い
これは、7200万枚の合成画像と3段階の訓練(アダプター訓練→統一事前訓練→教師あり微調整)という訓練戦略に基づいており、文字通りモデルを「マルチモーダル・マスター」に変えた。
dr_cintasが実測値の比較を投稿している:
iPhoneで4ビット量子化バージョンを実行すると、推論速度はほぼ60トークン/秒になる。
生成された384×384のサムネイルは、実際にナンバープレートのテキストを読むことができる
マルチモーダル理解ベンチマークテストでは、Janus-Pro-7Bは驚異的な強さを見せた:
教皇: 87.4%
MME-PT: 1567.1
MMBench: 79.2
シード:72.1
MMMU:41.0パーセント
MM-ベット:50.0
画像生成に関しては、GenEvalスコア0.8、DPG-Benchスコア84.19を達成し、DALL-E 3やSD3-Mediumなど多くのメインストリーム機種を凌駕している。
MITオープンソース:ご自由にどうぞ!
7B/1Bデュアルバージョンは完全にオープンソースであり、MITライセンスによって商用改変が許可されている!
ハギング・フェイスはすぐにダウンロードでき、1Bの軽量版でもiPhone上でローカルに実行できる。
開発者の @angrypenguinPNG がライブデモを行った:
未来都市の夜景」と入力すると、サイバーパンクなストリートビューが数秒で表示された。
シーンの細部を調べるためにズームインすると、モデルはネオンのグラデーションを正確に表現できる。
実用的価値:参入障壁を下げる
さまざまなシナリオのニーズに対応するため、DeepSeek には 2 つのバージョンがあります:
Janus-Pro-7B:強力な性能を持つフルバージョン
Janus-Pro-1B: ブラウザで直接実行できる軽量版
どちらのバージョンもHugging Faceプラットフォーム上でオープンソース化され、MITライセンスの下でリリースされているため、開発者は自由に使用・変更することができる。
ディープシークの包括的なブレークスルー
今、最もエキサイティングな問題は、理解と生成がもはや2つの別々のモデルを必要としなくなったとき、既存のAIアプリケーション・アーキテクチャは一斉に破壊されるのだろうか、ということだ。
単一モダルのアプリケーションでまだ苦労している人は、左脳と右脳のための共同アプリケーションの開発を検討すべきだ。
結局のところ、テキストとグラフィックの両方で同時に遊べるモデルこそが、マルチモダリティの真の体現なのだ。
Janus-Proのリリースは、ディープシークによる最近の大きなブレークスルーのひとつに過ぎないことは注目に値する:
Perplexityは、ディープウェブ検索のためのDeepSeek R1モデルを統合しました。
DeepSeek R1蒸留版、iPhoneで60トークン/秒の局所推論速度を達成
DeepSeek AIアシスタントがApp Store無料リストのトップに躍り出た
を開発し、Groqプラットフォーム上で極めて高速な推論性能を実証した。
これらの成果は、AI分野におけるディープシークの総合力を示すものであり、Janus-Proの画期的な進展は、マルチモーダルAI開発の新たな方向性を切り開いた。
ヤヌス・プロ 関連リンク・資料
プロジェクトの住所
モデルのダウンロード
素早く経験できる:
参考文献:
最後に、私たちは言いたい:サム・アルトマンの社名、彼が描いてきたパイ、そして彼が考えてきた道は、この好奇心旺盛な中国企業に受け継がれているようだ!