爆炸 深度搜索春节礼物--详解多模态模型 Janus-Pro

DeepSeek 最新的 Janus-Pro 型号 直接连接了多模态人工智能的 "左右脑"!

这个可以同时进行图像和文本理解以及图像生成的双面杀手,正在用自主开发的框架改写行业规则。

这不是简单的功能叠加,而是通过解耦视觉编码路径,该模型实现了真正的 "一心二用"。

传统的多模态模型就像用同一只手写字和画画,而 Janus-Pro 则直接为人工智能配备了两个神经系统!

框架革命:解决多模态的世纪难题

Janus-Pro 的最大创新是将视觉编码分成两个独立通道。

这就好比给人工智能配备了理解之眼和创造之手,让模型在处理 "图片描述 "和 "文本到图像 "时不再举步维艰。

其最大的突破在于全新的统一架构设计。该架构由三个核心部分组成:

自动编码器:作为核心语言模型

SigLIP-L@384:负责图像理解编码

基于 LlamaGen 的 VQ-VAE:用于生成图像

通过将视觉编码解耦为独立路径,同时保持统一的变压器架构,Janus-Pro 巧妙地解决了以往模型在视觉编码器中的角色冲突问题。

@reach_vb 指出了架构上的关键突破:

该模型基于 DeepSeek-LLM-1.5b/7b 建立,使用 SigLIP-L 处理 384×384 图像输入,并通过特定任务路径解耦编码过程。

这种设计允许模型在多模式任务之间无缝切换,同时保持单一的变压器架构。

培训战略:三步成功的进化之路

DeepSeek 团队采用了精心设计的三阶段培训流程:

第 1 阶段:在 ImageNet 数据集上训练新参数,以建立视觉元素和语言元素之间的概念联系

第 2 阶段: 引入多模态混合数据集,进行全面参数微调

第 3 阶段:通过监督微调提高指令跟踪和对话能力

对数据比率也进行了创新调整:

图像理解任务:50%(显著提高)

图像生成任务:40

文本任务:10%

@iScienceLuvr 指出了训练的秘密:

在微调的第三阶段,有意减少了文本任务的比例

这就迫使模型将计算能力集中在跨模式转换上

性能大师

这个 "全能型 "怪物在两个核心指标上表现出色!

官方测试表明,Janus-Pro 不仅超越了之前的统一模式,甚至可以与专业模式正面交锋--在理解任务中得分与 LLaVA 不相上下,在生成质量上也优于 DALL-E 3!

GenEval 得分为 0.8,令 SD3-Medium 望尘莫及

和 84.19 的 DPG-Bench 得分,其视觉创作质量接近专业设计师的水平

这是基于 7200 万张合成图像的训练策略和三个阶段的训练(适配器训练→统一预训练→监督微调),这简直把模型变成了 "多模态大师"。

@dr_cintas 发布了实际测量值的对比:

在 iPhone 上运行 4 位量化版本,推理速度接近每秒 60 个符号

生成的 384×384 缩略图可实际读取车牌文字

在多模态理解基准测试中,Janus-Pro-7B 表现出了惊人的实力:

教皇: 87.4%

MME-PT: 1567.1

MMBench: 79.2

SEED: 72.1

MMMU: 41.0

MM-Vet: 50.0

在图像生成方面,该机型的 GenEval 得分为 0.8,DPG-Bench 得分为 84.19,超过了包括 DALL-E 3 和 SD3-Medium 在内的许多主流机型。

MIT 开放源代码:自由发挥!

DeepSeek 这次扭转了局面--7B/1B 双版本完全开源,MIT 许可允许进行商业修改!

抱抱脸》可以立即下载,即使是 1B 的轻量级版本也可以在 iPhone 上本地运行。

开发者 @angrypenguinPNG 进行了现场演示:

输入 "未来城市夜景",赛博朋克街景瞬间出现

放大查看场景细节,模型可准确描述霓虹灯的渐变效果

实用价值:降低进入门槛

为满足不同场景的需求,DeepSeek 提供两个版本:

Janus-Pro-7B: 完整版,性能强大

Janus-Pro-1B:可直接在浏览器中运行的轻量级版本

这两个版本都已在 Hugging Face 平台上开源,并根据 MIT 许可发布,因此开发人员可以自由使用和修改。

DeepSeek 的全面突破

现在最令人兴奋的问题是:当理解和生成不再需要两个独立的模型时,现有的人工智能应用架构是否会被集体颠覆?

那些仍在努力开发单一模式应用软件的人,应该考虑开发左右脑协同应用软件。

毕竟,能同时玩转文字和图形的模型才是多模态的真正体现。

值得注意的是,Janus-Pro 的发布只是 DeepSeek 近期取得的一系列重大突破之一:

Perplexity 集成了 DeepSeek R1 模型,用于深度网络搜索

DeepSeek R1精简版在iPhone上的本地推理速度达到每秒60个符号

DeepSeek 人工智能助手跃居应用程序商店免费榜首

并在 Groq 平台上展示了极快的推理性能。

这些成果展示了 DeepSeek 在人工智能领域的综合实力,而 Janus-Pro 的突破性进展也为多模态人工智能的发展开辟了新的方向。

Janus pro 相关链接和文件

项目地址

GitHub 存储库

技术报告

型号下载:

Janus-Pro-7B

Janus-Pro-1B

快速体验

无需部署、免费、在线使用 janus pro

参考文件:

快速入门指南

DeepSeek 官方活动

最后,我们想说:山姆-奥特曼的公司名、他画的饼、他思考的路,似乎都将传给这家好奇心驱动的中国公司,它将继续深入探索智能的边界!

类似职位

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注