爆発! ディープシーク春節の贈り物-マルチモーダルモデルJanus-Proの詳細解説

ディープシークの最新モデルJanus-Pro マルチモーダルAIの「左脳」と「右脳」を直結させる!

画像とテキストの理解と画像生成を同時にこなすこの二刀流キラーは、独自開発のフレームワークで業界のルールを塗り替えようとしている。

これは単純な機能の重ね合わせではなく、視覚的な符号化経路を切り離すことで、このモデルは真の「一心同体、二用」を実現したのである。

従来のマルチモーダルモデルは、同じ手で字を書いたり絵を描いたりするようなものだが、Janus-ProはAIに2つの神経システムを直接装備させる!

フレームワーク革命:マルチモダリティの100年来の問題を解決する

Janus-Proの最も冷酷な革新は、視覚エンコードを2つの独立したチャンネルに分割したことだ。

それは、AIに「理解の目」と「創造の手」を装備させるようなもので、モデルが「画像描写」や「テキストから画像への変換」を処理する際に苦労することがなくなる。

その最大のブレークスルーは、まったく新しい統一アーキテクチャ設計にある。このアーキテクチャは、3つのコア・コンポーネントで構成されている:

オートエンコーダ:コア言語モデルとして

SigLIP-L@384:画像理解のエンコーディングを担当

LlamaGenに基づくVQ-VAE:画像生成用

統一されたトランスフォーマーアーキテクチャを維持しながら、ビジュアルエンコーディングを独立したパスに切り離すことで、Janus-Proは、ビジュアルエンコーダーにおける従来のモデルの役割の衝突を独創的に解決している。

Reach_vbは、このアーキテクチャーの重要なブレークスルーを指摘している:

モデルはDeepSeek-LLM-1.5b/7bで構築され、384×384の画像入力を処理するためにSigLIP-Lを使用し、タスク固有のパスを介してエンコード処理を切り離します。

この設計により、単一のトランスフォーマー・アーキテクチャーを維持しながら、マルチモーダルなタスクをシームレスに切り替えることができる。

トレーニング戦略:3段階の成功への進化の道

ディープシーク・チームは、入念に設計された3段階のトレーニング・プロセスを採用した:

ステージ1:視覚的要素と言語的要素の間の概念的接続を確立するために、ImageNetデータセットで新しいパラメータを訓練する。

ステージ2:フルパラメーター微調整のためのマルチモーダルハイブリッドデータセットの導入

ステージ3:スーパーバイズド・ファインチューニングによる指揮官追従と対話能力の向上

データ比率にも革新的な調整が加えられた:

画像理解課題:50%(有意な増加)

画像生成タスク:40

テキストタスク: 10%

iScienceLuvrがトレーニングの秘訣を指摘:

第3段階の微調整では、テキストタスクの割合を意図的に減らした。

このため、モデルはクロスモーダル変換に計算能力を集中させることになる。

パフォーマンス・マスター

この "オールラウンダー "の怪物は、2つの主要指標で大活躍している!

公式テストによれば、Janus-Proは従来の統一モデルを凌ぐだけでなく、専門モデルに真っ向勝負を挑むことさえできる。理解力タスクではLLaVAと同等のスコアを記録し、世代クオリティではDALL-E 3を上回る!

GenEvalのスコアは0.8で、SD3-Mediumをしのぐ。

DPG-Benchのスコアは84.19で、ビジュアル制作の品質はプロのデザイナーのそれに近い

これは、7200万枚の合成画像と3段階の訓練(アダプター訓練→統一事前訓練→教師あり微調整)という訓練戦略に基づいており、文字通りモデルを「マルチモーダル・マスター」に変えた。

dr_cintasが実測値の比較を投稿している:

iPhoneで4ビット量子化バージョンを実行すると、推論速度はほぼ60トークン/秒になる。

生成された384×384のサムネイルは、実際にナンバープレートのテキストを読むことができる

マルチモーダル理解ベンチマークテストでは、Janus-Pro-7Bは驚異的な強さを見せた:

教皇: 87.4%

MME-PT: 1567.1

MMBench: 79.2

シード:72.1

MMMU:41.0パーセント

MM-ベット:50.0

画像生成に関しては、GenEvalスコア0.8、DPG-Benchスコア84.19を達成し、DALL-E 3やSD3-Mediumなど多くのメインストリーム機種を凌駕している。

MITオープンソース:ご自由にどうぞ!

7B/1Bデュアルバージョンは完全にオープンソースであり、MITライセンスによって商用改変が許可されている!

ハギング・フェイスはすぐにダウンロードでき、1Bの軽量版でもiPhone上でローカルに実行できる。

開発者の @angrypenguinPNG がライブデモを行った:

未来都市の夜景」と入力すると、サイバーパンクなストリートビューが数秒で表示された。

シーンの細部を調べるためにズームインすると、モデルはネオンのグラデーションを正確に表現できる。

実用的価値:参入障壁を下げる

さまざまなシナリオのニーズに対応するため、DeepSeek には 2 つのバージョンがあります:

Janus-Pro-7B:強力な性能を持つフルバージョン

Janus-Pro-1B: ブラウザで直接実行できる軽量版

どちらのバージョンもHugging Faceプラットフォーム上でオープンソース化され、MITライセンスの下でリリースされているため、開発者は自由に使用・変更することができる。

ディープシークの包括的なブレークスルー

今、最もエキサイティングな問題は、理解と生成がもはや2つの別々のモデルを必要としなくなったとき、既存のAIアプリケーション・アーキテクチャは一斉に破壊されるのだろうか、ということだ。

単一モダルのアプリケーションでまだ苦労している人は、左脳と右脳のための共同アプリケーションの開発を検討すべきだ。

結局のところ、テキストとグラフィックの両方で同時に遊べるモデルこそが、マルチモダリティの真の体現なのだ。

Janus-Proのリリースは、ディープシークによる最近の大きなブレークスルーのひとつに過ぎないことは注目に値する:

Perplexityは、ディープウェブ検索のためのDeepSeek R1モデルを統合しました。

DeepSeek R1蒸留版、iPhoneで60トークン/秒の局所推論速度を達成

DeepSeek AIアシスタントがApp Store無料リストのトップに躍り出た

を開発し、Groqプラットフォーム上で極めて高速な推論性能を実証した。

これらの成果は、AI分野におけるディープシークの総合力を示すものであり、Janus-Proの画期的な進展は、マルチモーダルAI開発の新たな方向性を切り開いた。

ヤヌス・プロ 関連リンク・資料

プロジェクトの住所

GitHubリポジトリ

テクニカルレポート

モデルのダウンロード

Janus-Pro-7B

Janus-Pro-1B

素早く経験できる:

配備なし、無料、オンライン利用 janus pro

参考文献:

クイックスタートガイド

ディープシーク公式イベント

最後に、私たちは言いたい:サム・アルトマンの社名、彼が描いてきたパイ、そして彼が考えてきた道は、この好奇心旺盛な中国企業に受け継がれているようだ!

類似の投稿

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です