爆炸DeepSeek 的新春禮物-多模態模型 Janus-Pro 詳解

爆炸！深度搜尋農曆新年禮物 - 詳細解釋多模態模型 Janus-Pro

DeepSeek 最新的 Janus-Pro 機型直接連接多模態 AI 的「左右腦」！

這個可以同時進行圖像與文字理解、圖像生成的雙面殺手，正以其自主開發的框架改寫著業界的規則。

這並不是簡單的功能疊加，而是透過解耦視覺編碼路徑，讓模型達到真正的「一心二用」。

傳統的多模態模型就像是用同一隻手寫字和畫畫，而 Janus-Pro 直接為 AI 裝備了兩個神經系統！

框架革命：解決多模態的百年難題

Janus-Pro 最無情的創新就是將視覺編碼分割成兩個獨立的通道。

這就像是為人工智慧裝上理解之眼和創造之手，讓模型在處理「圖片描述」和「文字轉影像」時不再吃力。

其最大的突破在於全新的統一架構設計。此架構由三個核心元件組成：

自動編碼器：作為核心語言模型

SigLIP-L@384: 負責影像理解編碼

基於 LlamaGen 的 VQ-VAE：用於影像產生

透過將視訊編碼解耦為獨立路徑，同時維持統一的 Transformer 架構，Janus-Pro 巧妙地解決了以往模型在視訊編碼器中的角色衝突問題。

@reach_vb 指出了架構上的關鍵突破：

該模型建基於 DeepSeek-LLM-1.5b/7b，使用 SigLIP-L 處理 384×384 圖像輸入，並通過特定任務路徑解耦編碼過程

此設計可讓模型在多模式任務間無縫切換，同時維持單一的 Transformer 架構。

訓練策略：三步成功的進化之路

DeepSeek 團隊採用了精心設計的三階段訓練流程：

第 1 階段：在 ImageNet 資料集上訓練新參數，以建立視覺與語言元素之間的概念連結

第 2 階段：引進多模態混合資料集以進行完整參數微調

第 3 階段：透過監督微調改善指令遵循與對話能力

對於資料比率也做了創新的調整：

圖像理解任務：50%（顯著增加）

影像產生任務：40

文字任務： 10%

@iScienceLuvr 指出訓練的秘訣：

在微調的第三階段，刻意減少文字任務的比例

這迫使模型將計算能力集中在跨模式轉換上

效能主控

這隻「全能型」怪獸在兩項核心指標中大殺四方！

官方測試顯示，Janus-Pro 不僅優於先前的統一機型，甚至可以與專門機型正面對決 - 在理解任務中得分與 LLaVA 不相伯仲，在世代品質上也優於 DALL-E 3！

GenEval 得分值為 0.8，讓 SD3-Medium 望塵莫及。

以及 84.19 的 DPG-Bench 分數，其視覺創作品質已接近專業設計師的水準

這是基於 7200 萬張合成影像的訓練策略，以及三階段的訓練（適配器訓練 → 統一預訓 → 監督微調），讓模型名副其實地成為了「多模態大師」。

@dr_cintas 發表了實際測量結果的比較：

在 iPhone 上執行 4 位元量化版本，推論速度接近每秒 60 個字元

產生的 384×384 縮圖實際上可以讀取車牌文字

在多模態理解基準測試中，Janus-Pro-7B 展現了驚人的實力：

教宗： 87.4%

MME-PT: 1567.1

MMBench: 79.2

SEED: 72.1

MMMU: 41.0

MM-Vet: 50.0

在影像生成方面，該機型取得了 0.8 的 GenEval 分數和 84.19 的 DPG-Bench 分數，超越了包括 DALL-E 3 和 SD3-Medium 在內的許多主流機型。

MIT 開放原始碼：自由發揮！

DeepSeek 這次翻身了 - 7B/1B 雙版本完全開放原始碼，MIT 授權也允許商業修改！

Hugging Face 可以立即下載，即使是 1B 的輕量版也可以在 iPhone 本機執行。

開發人員 @angrypenguinPNG 進行了現場示範：

輸入「未來城市夜景」，賽博龐克街景即時出現

放大檢視場景細節，模型可以準確描述霓虹燈的漸變效果

實用價值：降低進入門檻

為了滿足不同場景的需求，DeepSeek 提供了兩個版本：

Janus-Pro-7B: 完整版，性能強大

Janus-Pro-1B: 可直接在瀏覽器中執行的輕量級版本

這兩個版本都已在 Hugging Face 平台上開放原始碼，並以 MIT 授權釋出，因此開發人員可以自由使用和修改。

DeepSeek 的全面突破

現在最令人興奮的問題是：當理解和產生不再需要兩個獨立的模型時，現有的 AI 應用架構是否會被集體瓦解？

那些仍在單一模式應用程式上掙扎的人，應該考慮開發左右腦的協同應用程式。

畢竟，能同時玩文字和圖形的模型才是多模態的真正體現。

值得注意的是，Janus-Pro 的釋出只是 DeepSeek 近期一系列重大突破的其中之一：

Perplexity 已整合 DeepSeek R1 模型，用於深層網路搜尋

DeepSeek R1 精簡版在 iPhone 上的本機推理速度達到 60 tokens/s

DeepSeek AI Assistant 躍居 App Store 免費榜首

並在 Groq 平台上展現了極快的推理效能。

這些成果展示了DeepSeek在人工智能領域的綜合實力，Janus-Pro的突破性進展為多模態人工智能的發展開闢了新的方向。

Janus pro 相關連結與文件

專案地址：

型號下載：

快速體驗：

無須部署、免費、線上使用 janus pro

參考文件：

快速入門指南

DeepSeek 官方活動

最後，我們想說Sam Altman 的公司名、他畫的餅、他想的路，似乎都要傳給這家好奇心驅動的中國公司，繼續深入探索智慧的邊界！

爆炸DeepSeek 的新春禮物-多模態模型 Janus-Pro 詳解

框架革命：解決多模態的百年難題

訓練策略：三步成功的進化之路

效能主控

MIT 開放原始碼：自由發揮！

實用價值：降低進入門檻

DeepSeek 的全面突破

Janus pro 相關連結與文件

DeepSeek 取代 ChatGPT 成為 App Store 全球應用程式商店的頂尖應用程式

Janus Pro DeepSeek：深入了解最新人工智能模型的技術與應用 | 探索其背後的創新力量

如何在本機執行 deepseek r1

DeepSeek V3 論文詳細內容：如何繞過 CUDA 壟斷！

完整說明：從 DeepSeek Janus 到 Janus-Pro！

深入分析：DeepSeek 最新發表的 Janus-Pro 有哪些創新？

發佈留言取消回覆

資源

朋友們

框架革命：解決多模態的百年難題

訓練策略：三步成功的進化之路

效能主控

MIT 開放原始碼：自由發揮！

實用價值：降低進入門檻

DeepSeek 的全面突破

Janus pro 相關連結與文件

類似職位

發佈留言 取消回覆

資源

朋友們

發佈留言取消回覆