深夜發布！DeepSeek 重新定義 AI 圖像產生與理解，突破性的 Janus-Pro 綜合模型首次亮相！- JanusAI.Pro

重點介紹
🔹 統一變壓器架構:單一模型同時處理影像理解和生成，消除了對獨立系統的需求。
🔹 可擴充與開放原始碼:可用於 1B 和 7B 參數版本 (MIT 授權)，針對不同的應用程式和商業用途進行最佳化。
🔹 最先進的效能:在 GenEval 和 DPG-Bench 等基準測試中，表現優於 OpenAI 的 DALL-E 3 和 Stable Diffusion。
🔹 簡化部署:精簡的架構可降低訓練/會議成本，同時保持彈性。

型號連結

Janus-Pro-7B: 擁抱臉
Janus-Pro-1B: 擁抱臉
GitHub: 程式碼與文件

為何 Janus-Pro 能脫穎而出

1.一機兩用

瞭解模式:用途 SigLIP-L (「超級眼鏡」) 來分析影像 (最大 384×384) 和文字。
世代模式:槓桿整流 + SDXL-VAE (神奇畫筆」）來製作高品質影像。

2.腦力與訓練

核心 LLM:建構於 DeepSeek 強大的語言模型 (1.5B/7B 參數)，擅長上下文推理。
訓練管道:在大量資料集上進行預訓 → 監督微調 → 優化 EMA 以達到最高效能。

3.為何變壓器過度擴散？

任務多樣性:以統一理解 + 產生為優先，而擴散模型則純粹著重於影像品質。
效率:自回歸生成 (單步) vs. 擴散的反覆去噪 (例如 Stable Diffusion 的 20 步)。
成本效益:單一 Transformer 骨幹可簡化訓練與部署。

基準優勢

📊 多模式理解
Janus-Pro-7B 在四個關鍵基準上的表現優於專用模型 (例如 LLaVA)，並可隨著參數大小平穩擴充。

文字轉圖像製作

GenEval:匹配 SDXL 和 DALL-E 3。
DPG-Bench: 84.2% 精度 (Janus-Pro-7B) ，超越所有競爭對手。

實際測試

速度:~15 秒/影像 (L4 GPU、22GB VRAM)。
品質:雖然小細節需要改進，但仍非常迅速。
Colab 演示: 試試 Janus-Pro-7B (需要專業級）。

技術細目

建築

瞭解路徑:淨化影像 → SigLIP-L 編碼器 → LLM → 文字回應。
世代路徑:雜訊影像 → 整流解碼器 + LLM → 迭代式去噪。

主要創新

解耦視覺編碼:獨立的理解/生成途徑可防止視覺模組中的「角色衝突」。
共用變壓器核心:可進行跨任務的知識轉移 (例如，學習「貓」的概念可同時幫助識別和繪圖)。

社區動態

AK (AI 研究員): "Janus-Pro 的簡單性和靈活性使其成為下一代多模式系統的主要候選產品。透過解耦視覺路徑，同時保持統一的 Transformer，它在專門化與通用化之間取得了平衡，這是一項罕見的壯舉"。

MIT 授權為何重要

自由:使用、修改和分發的商業限制極少。
透明度:完整的程式碼存取可加速社群驅動的改進。

最後看法
DeepSeek 的 Janus-Pro 不只是另一種 AI 模型，而是一種範式轉換。藉由將理解與生成統一在一個屋簷下，它為更智慧的創意工具、即時應用與具成本效益的部署打開了大門。透過開放原始碼存取和 MIT 授權，這可能會成為下一波多模式創新的催化劑。🚀

給開發人員：查看 ComfyUI 節點並加入實驗浪潮！

本文章由贊助：

未分類

DeepSeek V3 論文詳細內容：如何繞過 CUDA 壟斷！

按janus-ai 1 月 29, 20251 月 29, 2025

DeepSeek V3 論文詳細內容：如何繞過 CUDA 的壟斷！DeepSeek最近發布的兩款模型DeepSeek-V3和DeepSeek-R1，以更低的成本實現了媲美OpenAI同類模型的性能。根據外國媒體報導，在短短兩個月內，他們在一個由 2,048 個集群組成的模型上，訓練出了一個擁有 6,710 億個參數的 MoE 語言模型...

未分類

deepseek 圖片產生器

按wd.gstar@gmail.com 1 月 28, 20251 月 28, 2025

DeepSeek 圖像產生器：DeepSeek 圖像產生器：人工智能圖像創作的革命性突破引言隨著 DeepSeek 尖端圖像產生技術的出現，人工智能領域發生了顯著的變化。DeepSeek 圖像產生器，特別是透過其 Janus Pro 系列，在競爭激烈的 AI 圖像創作領域中，已成為改變遊戲規則的解決方案。這...

未分類

完整說明：從 DeepSeek Janus 到 Janus-Pro！

按janus-ai 1 月 30, 20251 月 30, 2025

帶回家的訊息：Janus 是一個簡單、統一且可擴充的多模態理解與產生模型，可將多模態理解與產生的視覺編碼分離，減少兩項工作之間的潛在衝突。它可以在未來擴展以納入更多的輸入模式。Janus-Pro 在此基礎上優化了訓練策略 (包括增加...

未分類

Deepseek 發表了另一套組合：它剛發表了超越 DALL-E3 的多模式機型 Janus Pro

按janus-ai 1 月 28, 20251 月 28, 2025

和人工智能時代已悄然來臨。大概誰也沒想到，這個農曆新年，最熱門的話題不再是傳統的互聯網紅包大戰、誰與春晚合作，而是AI公司。臨近春節，各大模型公司一點也沒有放鬆，更新了一波...

未分類

NVIDIA 與微軟率先整合 Deepseek，而 OpenAI 則緊急募集 2800 億新資金

按janus-ai 1 月 31, 20251 月 31, 2025

Open AI 緊急融資隨著 DeepSeek 發揮影響力，矽谷實在太令人興奮了。昨天，OpenAI 和 Anthropic 還在領跑，千方百計地給競爭對手使絆子。一夜之間，基礎建設廠商突然變得「真的很有興趣」。繼 Microsoft 之後，NVIDIA 和 AWS 也加快推出 DeepSeek 模型託管...

未分類

多模態影像生成的新星：Janus-4o？ ShareGPT-4o-Image 為資料集設定了新標準，使影像產生與 GPT-4o 保持一致。

按janus-ai 2025 年 7 月 6 日2025 年 7 月 6 日

ShareGPT-4o-Image 是一個大規模、高品質的影像生成資料集，其中所有影像均使用 GPT-4o 的影像生成功能產生。該資料集旨在將開源多模態模型的優勢與 GPT-4o 在視覺內容創作方面的優勢相結合。它包含 45,000 個文字轉圖像和 46,000 個圖像轉文字的樣本，使其成為增強圖像多模態模型的實用資源…

深夜發布！DeepSeek 重新定義 AI 圖像產生與理解，突破性的 Janus-Pro 綜合模型首次亮相！

為何 Janus-Pro 能脫穎而出

基準優勢

技術細目

社區動態

DeepSeek V3 論文詳細內容：如何繞過 CUDA 壟斷！

deepseek 圖片產生器

完整說明：從 DeepSeek Janus 到 Janus-Pro！

Deepseek 發表了另一套組合：它剛發表了超越 DALL-E3 的多模式機型 Janus Pro

NVIDIA 與微軟率先整合 Deepseek，而 OpenAI 則緊急募集 2800 億新資金

多模態影像生成的新星：Janus-4o？ ShareGPT-4o-Image 為資料集設定了新標準，使影像產生與 GPT-4o 保持一致。

發佈留言取消回覆

資源

朋友們

為何 Janus-Pro 能脫穎而出

基準優勢

技術細目

社區動態

類似職位

發佈留言 取消回覆

資源

朋友們

發佈留言取消回覆