爆炸DeepSeek的春节礼物--多模态模型Janus-Pro详解

爆炸深度搜索春节礼物--详解多模态模型 Janus-Pro

DeepSeek 最新的 Janus-Pro 型号直接连接了多模态人工智能的 "左右脑"！

这个可以同时进行图像和文本理解以及图像生成的双面杀手，正在用自主开发的框架改写行业规则。

这不是简单的功能叠加，而是通过解耦视觉编码路径，该模型实现了真正的 "一心二用"。

传统的多模态模型就像用同一只手写字和画画，而 Janus-Pro 则直接为人工智能配备了两个神经系统！

框架革命：解决多模态的世纪难题

Janus-Pro 的最大创新是将视觉编码分成两个独立通道。

这就好比给人工智能配备了理解之眼和创造之手，让模型在处理 "图片描述 "和 "文本到图像 "时不再举步维艰。

其最大的突破在于全新的统一架构设计。该架构由三个核心部分组成：

自动编码器：作为核心语言模型

SigLIP-L@384：负责图像理解编码

基于 LlamaGen 的 VQ-VAE：用于生成图像

通过将视觉编码解耦为独立路径，同时保持统一的变压器架构，Janus-Pro 巧妙地解决了以往模型在视觉编码器中的角色冲突问题。

@reach_vb 指出了架构上的关键突破：

该模型基于 DeepSeek-LLM-1.5b/7b 建立，使用 SigLIP-L 处理 384×384 图像输入，并通过特定任务路径解耦编码过程。

这种设计允许模型在多模式任务之间无缝切换，同时保持单一的变压器架构。

培训战略：三步成功的进化之路

DeepSeek 团队采用了精心设计的三阶段培训流程：

第 1 阶段：在 ImageNet 数据集上训练新参数，以建立视觉元素和语言元素之间的概念联系

第 2 阶段：引入多模态混合数据集，进行全面参数微调

第 3 阶段：通过监督微调提高指令跟踪和对话能力

对数据比率也进行了创新调整：

图像理解任务：50%（显著提高）

图像生成任务：40

文本任务：10%

@iScienceLuvr 指出了训练的秘密：

在微调的第三阶段，有意减少了文本任务的比例

这就迫使模型将计算能力集中在跨模式转换上

性能大师

这个 "全能型 "怪物在两个核心指标上表现出色！

官方测试表明，Janus-Pro 不仅超越了之前的统一模式，甚至可以与专业模式正面交锋--在理解任务中得分与 LLaVA 不相上下，在生成质量上也优于 DALL-E 3！

GenEval 得分为 0.8，令 SD3-Medium 望尘莫及

和 84.19 的 DPG-Bench 得分，其视觉创作质量接近专业设计师的水平

这是基于 7200 万张合成图像的训练策略和三个阶段的训练（适配器训练→统一预训练→监督微调），这简直把模型变成了 "多模态大师"。

@dr_cintas 发布了实际测量值的对比：

在 iPhone 上运行 4 位量化版本，推理速度接近每秒 60 个符号

生成的 384×384 缩略图可实际读取车牌文字

在多模态理解基准测试中，Janus-Pro-7B 表现出了惊人的实力：

教皇： 87.4%

MME-PT: 1567.1

MMBench: 79.2

SEED: 72.1

MMMU: 41.0

MM-Vet: 50.0

在图像生成方面，该机型的 GenEval 得分为 0.8，DPG-Bench 得分为 84.19，超过了包括 DALL-E 3 和 SD3-Medium 在内的许多主流机型。

MIT 开放源代码：自由发挥！

DeepSeek 这次扭转了局面--7B/1B 双版本完全开源，MIT 许可允许进行商业修改！

抱抱脸》可以立即下载，即使是 1B 的轻量级版本也可以在 iPhone 上本地运行。

开发者 @angrypenguinPNG 进行了现场演示：

输入 "未来城市夜景"，赛博朋克街景瞬间出现

放大查看场景细节，模型可准确描述霓虹灯的渐变效果

实用价值：降低进入门槛

为满足不同场景的需求，DeepSeek 提供两个版本：

Janus-Pro-7B: 完整版，性能强大

Janus-Pro-1B：可直接在浏览器中运行的轻量级版本

这两个版本都已在 Hugging Face 平台上开源，并根据 MIT 许可发布，因此开发人员可以自由使用和修改。

DeepSeek 的全面突破

现在最令人兴奋的问题是：当理解和生成不再需要两个独立的模型时，现有的人工智能应用架构是否会被集体颠覆？

那些仍在努力开发单一模式应用软件的人，应该考虑开发左右脑协同应用软件。

毕竟，能同时玩转文字和图形的模型才是多模态的真正体现。

值得注意的是，Janus-Pro 的发布只是 DeepSeek 近期取得的一系列重大突破之一：

Perplexity 集成了 DeepSeek R1 模型，用于深度网络搜索

DeepSeek R1精简版在iPhone上的本地推理速度达到每秒60个符号

DeepSeek 人工智能助手跃居应用程序商店免费榜首

并在 Groq 平台上展示了极快的推理性能。

这些成果展示了 DeepSeek 在人工智能领域的综合实力，而 Janus-Pro 的突破性进展也为多模态人工智能的发展开辟了新的方向。

Janus pro 相关链接和文件

项目地址

型号下载：

快速体验

无需部署、免费、在线使用 janus pro

参考文件：

快速入门指南

DeepSeek 官方活动

最后，我们想说：山姆-奥特曼的公司名、他画的饼、他思考的路，似乎都将传给这家好奇心驱动的中国公司，它将继续深入探索智能的边界！

爆炸DeepSeek 的新春贺礼--多模态模型 Janus-Pro 详解

框架革命：解决多模态的世纪难题

培训战略：三步成功的进化之路

性能大师

MIT 开放源代码：自由发挥！

实用价值：降低进入门槛

DeepSeek 的全面突破

Janus pro 相关链接和文件

多模态图像生成的新星：Janus-4o？ShareGPT-4o-Image 为数据集设定了新标准，使图像生成与 GPT-4o 保持一致。

完整解释：从 DeepSeek Janus 到 Janus-Pro！

Deepseek 又发布了一套组合拳：它刚刚发布的多模态模型 Janus Pro 超越了 DALL-E3

光标支持 DeepSeek R1，新版本更新了多项功能

DeepSeek 取代 ChatGPT 成为 App Store 全球应用程序商店的顶级应用程序

我把 DeepSeek-R1 的推理能力知识提炼到了 Qwen2 中，结果真是爆炸性的！！！"！

发表回复取消回复

资源

朋友们

框架革命：解决多模态的世纪难题

培训战略：三步成功的进化之路

性能大师

MIT 开放源代码：自由发挥！

实用价值：降低进入门槛

DeepSeek 的全面突破

Janus pro 相关链接和文件

类似职位

发表回复 取消回复

资源

朋友们

发表回复取消回复