爆発！DeepSeekの旧正月プレゼント-マルチモーダルモデルJanus-Proの詳細解説

爆発！ディープシーク春節の贈り物-マルチモーダルモデルJanus-Proの詳細解説

ディープシークの最新モデルJanus-Pro マルチモーダルAIの「左脳」と「右脳」を直結させる！

画像とテキストの理解と画像生成を同時にこなすこの二刀流キラーは、独自開発のフレームワークで業界のルールを塗り替えようとしている。

これは単純な機能の重ね合わせではなく、視覚的な符号化経路を切り離すことで、このモデルは真の「一心同体、二用」を実現したのである。

従来のマルチモーダルモデルは、同じ手で字を書いたり絵を描いたりするようなものだが、Janus-ProはAIに2つの神経システムを直接装備させる！

フレームワーク革命：マルチモダリティの100年来の問題を解決する

Janus-Proの最も冷酷な革新は、視覚エンコードを2つの独立したチャンネルに分割したことだ。

それは、AIに「理解の目」と「創造の手」を装備させるようなもので、モデルが「画像描写」や「テキストから画像への変換」を処理する際に苦労することがなくなる。

その最大のブレークスルーは、まったく新しい統一アーキテクチャ設計にある。このアーキテクチャは、3つのコア・コンポーネントで構成されている：

オートエンコーダ：コア言語モデルとして

SigLIP-L@384：画像理解のエンコーディングを担当

LlamaGenに基づくVQ-VAE：画像生成用

統一されたトランスフォーマーアーキテクチャを維持しながら、ビジュアルエンコーディングを独立したパスに切り離すことで、Janus-Proは、ビジュアルエンコーダーにおける従来のモデルの役割の衝突を独創的に解決している。

Reach_vbは、このアーキテクチャーの重要なブレークスルーを指摘している：

モデルはDeepSeek-LLM-1.5b/7bで構築され、384×384の画像入力を処理するためにSigLIP-Lを使用し、タスク固有のパスを介してエンコード処理を切り離します。

この設計により、単一のトランスフォーマー・アーキテクチャーを維持しながら、マルチモーダルなタスクをシームレスに切り替えることができる。

トレーニング戦略：3段階の成功への進化の道

ディープシーク・チームは、入念に設計された3段階のトレーニング・プロセスを採用した：

ステージ1：視覚的要素と言語的要素の間の概念的接続を確立するために、ImageNetデータセットで新しいパラメータを訓練する。

ステージ2：フルパラメーター微調整のためのマルチモーダルハイブリッドデータセットの導入

ステージ3：スーパーバイズド・ファインチューニングによる指揮官追従と対話能力の向上

データ比率にも革新的な調整が加えられた：

画像理解課題：50%（有意な増加）

画像生成タスク：40

テキストタスク: 10%

iScienceLuvrがトレーニングの秘訣を指摘：

第3段階の微調整では、テキストタスクの割合を意図的に減らした。

このため、モデルはクロスモーダル変換に計算能力を集中させることになる。

パフォーマンス・マスター

この "オールラウンダー "の怪物は、2つの主要指標で大活躍している！

公式テストによれば、Janus-Proは従来の統一モデルを凌ぐだけでなく、専門モデルに真っ向勝負を挑むことさえできる。理解力タスクではLLaVAと同等のスコアを記録し、世代クオリティではDALL-E 3を上回る！

GenEvalのスコアは0.8で、SD3-Mediumをしのぐ。

DPG-Benchのスコアは84.19で、ビジュアル制作の品質はプロのデザイナーのそれに近い

これは、7200万枚の合成画像と3段階の訓練（アダプター訓練→統一事前訓練→教師あり微調整）という訓練戦略に基づいており、文字通りモデルを「マルチモーダル・マスター」に変えた。

dr_cintasが実測値の比較を投稿している：

iPhoneで4ビット量子化バージョンを実行すると、推論速度はほぼ60トークン/秒になる。

生成された384×384のサムネイルは、実際にナンバープレートのテキストを読むことができる

マルチモーダル理解ベンチマークテストでは、Janus-Pro-7Bは驚異的な強さを見せた：

教皇: 87.4%

MME-PT: 1567.1

MMBench: 79.2

シード：72.1

MMMU：41.0パーセント

MM-ベット：50.0

画像生成に関しては、GenEvalスコア0.8、DPG-Benchスコア84.19を達成し、DALL-E 3やSD3-Mediumなど多くのメインストリーム機種を凌駕している。

MITオープンソース：ご自由にどうぞ！

7B/1Bデュアルバージョンは完全にオープンソースであり、MITライセンスによって商用改変が許可されている！

ハギング・フェイスはすぐにダウンロードでき、1Bの軽量版でもiPhone上でローカルに実行できる。

開発者の @angrypenguinPNG がライブデモを行った：

未来都市の夜景」と入力すると、サイバーパンクなストリートビューが数秒で表示された。

シーンの細部を調べるためにズームインすると、モデルはネオンのグラデーションを正確に表現できる。

実用的価値：参入障壁を下げる

さまざまなシナリオのニーズに対応するため、DeepSeek には 2 つのバージョンがあります：

Janus-Pro-7B：強力な性能を持つフルバージョン

Janus-Pro-1B: ブラウザで直接実行できる軽量版

どちらのバージョンもHugging Faceプラットフォーム上でオープンソース化され、MITライセンスの下でリリースされているため、開発者は自由に使用・変更することができる。

ディープシークの包括的なブレークスルー

今、最もエキサイティングな問題は、理解と生成がもはや2つの別々のモデルを必要としなくなったとき、既存のAIアプリケーション・アーキテクチャは一斉に破壊されるのだろうか、ということだ。

単一モダルのアプリケーションでまだ苦労している人は、左脳と右脳のための共同アプリケーションの開発を検討すべきだ。

結局のところ、テキストとグラフィックの両方で同時に遊べるモデルこそが、マルチモダリティの真の体現なのだ。

Janus-Proのリリースは、ディープシークによる最近の大きなブレークスルーのひとつに過ぎないことは注目に値する：

Perplexityは、ディープウェブ検索のためのDeepSeek R1モデルを統合しました。

DeepSeek R1蒸留版、iPhoneで60トークン/秒の局所推論速度を達成

DeepSeek AIアシスタントがApp Store無料リストのトップに躍り出た

を開発し、Groqプラットフォーム上で極めて高速な推論性能を実証した。

これらの成果は、AI分野におけるディープシークの総合力を示すものであり、Janus-Proの画期的な進展は、マルチモーダルAI開発の新たな方向性を切り開いた。

ヤヌス・プロ関連リンク・資料

プロジェクトの住所

モデルのダウンロード

素早く経験できる：

配備なし、無料、オンライン利用 janus pro

参考文献：

クイックスタートガイド

ディープシーク公式イベント

最後に、私たちは言いたい：サム・アルトマンの社名、彼が描いてきたパイ、そして彼が考えてきた道は、この好奇心旺盛な中国企業に受け継がれているようだ！

爆発！DeepSeekの旧正月プレゼント-マルチモーダルモデルJanus-Proの詳細解説

フレームワーク革命：マルチモダリティの100年来の問題を解決する

トレーニング戦略：3段階の成功への進化の道

パフォーマンス・マスター

MITオープンソース：ご自由にどうぞ！

実用的価値：参入障壁を下げる

ディープシークの包括的なブレークスルー

ヤヌス・プロ関連リンク・資料

DeepSeekがChatGPTに代わってApp Storeのグローバルアプリストアでトップアプリに

DeepSeek-R1の推理力に関する知識をQwen2に落とし込んだ！

ディープシーク画像ジェネレーター

ディープシークR1をローカルで実行する方法

ローカルコンピュータにDeepSeek R1をインストールして使用する方法

ディープシークがまた新たなコンボを発表：DALL-E3を凌ぐマルチモーダルモデルJanus Proを発表した。

コメントを残すコメントをキャンセル

リソース

製品

フレームワーク革命：マルチモダリティの100年来の問題を解決する

トレーニング戦略：3段階の成功への進化の道

パフォーマンス・マスター

MITオープンソース：ご自由にどうぞ！

実用的価値：参入障壁を下げる

ディープシークの包括的なブレークスルー

ヤヌス・プロ 関連リンク・資料

類似の投稿

コメントを残す コメントをキャンセル

リソース

製品

ヤヌス・プロ関連リンク・資料

コメントを残すコメントをキャンセル