爆炸! 深度搜尋農曆新年禮物 - 詳細解釋多模態模型 Janus-Pro
DeepSeek 最新的 Janus-Pro 機型 直接連接多模態 AI 的「左右腦」!
這個可以同時進行圖像與文字理解、圖像生成的雙面殺手,正以其自主開發的框架改寫著業界的規則。
這並不是簡單的功能疊加,而是透過解耦視覺編碼路徑,讓模型達到真正的「一心二用」。
傳統的多模態模型就像是用同一隻手寫字和畫畫,而 Janus-Pro 直接為 AI 裝備了兩個神經系統!
框架革命:解決多模態的百年難題
Janus-Pro 最無情的創新就是將視覺編碼分割成兩個獨立的通道。
這就像是為人工智慧裝上理解之眼和創造之手,讓模型在處理「圖片描述」和「文字轉影像」時不再吃力。
其最大的突破在於全新的統一架構設計。此架構由三個核心元件組成:
自動編碼器:作為核心語言模型
SigLIP-L@384: 負責影像理解編碼
基於 LlamaGen 的 VQ-VAE:用於影像產生
透過將視訊編碼解耦為獨立路徑,同時維持統一的 Transformer 架構,Janus-Pro 巧妙地解決了以往模型在視訊編碼器中的角色衝突問題。
@reach_vb 指出了架構上的關鍵突破:
該模型建基於 DeepSeek-LLM-1.5b/7b,使用 SigLIP-L 處理 384×384 圖像輸入,並通過特定任務路徑解耦編碼過程
此設計可讓模型在多模式任務間無縫切換,同時維持單一的 Transformer 架構。
訓練策略:三步成功的進化之路
DeepSeek 團隊採用了精心設計的三階段訓練流程:
第 1 階段: 在 ImageNet 資料集上訓練新參數,以建立視覺與語言元素之間的概念連結
第 2 階段:引進多模態混合資料集以進行完整參數微調
第 3 階段:透過監督微調改善指令遵循與對話能力
對於資料比率也做了創新的調整:
圖像理解任務:50%(顯著增加)
影像產生任務:40
文字任務: 10%
@iScienceLuvr 指出訓練的秘訣:
在微調的第三階段,刻意減少文字任務的比例
這迫使模型將計算能力集中在跨模式轉換上
效能主控
這隻「全能型」怪獸在兩項核心指標中大殺四方!
官方測試顯示,Janus-Pro 不僅優於先前的統一機型,甚至可以與專門機型正面對決 - 在理解任務中得分與 LLaVA 不相伯仲,在世代品質上也優於 DALL-E 3!
GenEval 得分值為 0.8,讓 SD3-Medium 望塵莫及。
以及 84.19 的 DPG-Bench 分數,其視覺創作品質已接近專業設計師的水準
這是基於 7200 萬張合成影像的訓練策略,以及三階段的訓練(適配器訓練 → 統一預訓 → 監督微調),讓模型名副其實地成為了「多模態大師」。
@dr_cintas 發表了實際測量結果的比較:
在 iPhone 上執行 4 位元量化版本,推論速度接近每秒 60 個字元
產生的 384×384 縮圖實際上可以讀取車牌文字
在多模態理解基準測試中,Janus-Pro-7B 展現了驚人的實力:
教宗: 87.4%
MME-PT: 1567.1
MMBench: 79.2
SEED: 72.1
MMMU: 41.0
MM-Vet: 50.0
在影像生成方面,該機型取得了 0.8 的 GenEval 分數和 84.19 的 DPG-Bench 分數,超越了包括 DALL-E 3 和 SD3-Medium 在內的許多主流機型。
MIT 開放原始碼:自由發揮!
DeepSeek 這次翻身了 - 7B/1B 雙版本完全開放原始碼,MIT 授權也允許商業修改!
Hugging Face 可以立即下載,即使是 1B 的輕量版也可以在 iPhone 本機執行。
開發人員 @angrypenguinPNG 進行了現場示範:
輸入「未來城市夜景」,賽博龐克街景即時出現
放大檢視場景細節,模型可以準確描述霓虹燈的漸變效果
實用價值:降低進入門檻
為了滿足不同場景的需求,DeepSeek 提供了兩個版本:
Janus-Pro-7B: 完整版,性能強大
Janus-Pro-1B: 可直接在瀏覽器中執行的輕量級版本
這兩個版本都已在 Hugging Face 平台上開放原始碼,並以 MIT 授權釋出,因此開發人員可以自由使用和修改。
DeepSeek 的全面突破
現在最令人興奮的問題是:當理解和產生不再需要兩個獨立的模型時,現有的 AI 應用架構是否會被集體瓦解?
那些仍在單一模式應用程式上掙扎的人,應該考慮開發左右腦的協同應用程式。
畢竟,能同時玩文字和圖形的模型才是多模態的真正體現。
值得注意的是,Janus-Pro 的釋出只是 DeepSeek 近期一系列重大突破的其中之一:
Perplexity 已整合 DeepSeek R1 模型,用於深層網路搜尋
DeepSeek R1 精簡版在 iPhone 上的本機推理速度達到 60 tokens/s
DeepSeek AI Assistant 躍居 App Store 免費榜首
並在 Groq 平台上展現了極快的推理效能。
這些成果展示了DeepSeek在人工智能領域的綜合實力,Janus-Pro的突破性進展為多模態人工智能的發展開闢了新的方向。
Janus pro 相關連結與文件
專案地址:
型號下載:
快速體驗:
參考文件:
最後,我們想說Sam Altman 的公司名、他畫的餅、他想的路,似乎都要傳給這家好奇心驅動的中國公司,繼續深入探索智慧的邊界!