爆炸 深度搜索春节礼物--详解多模态模型 Janus-Pro
DeepSeek 最新的 Janus-Pro 型号 直接连接了多模态人工智能的 "左右脑"!
这个可以同时进行图像和文本理解以及图像生成的双面杀手,正在用自主开发的框架改写行业规则。
这不是简单的功能叠加,而是通过解耦视觉编码路径,该模型实现了真正的 "一心二用"。
传统的多模态模型就像用同一只手写字和画画,而 Janus-Pro 则直接为人工智能配备了两个神经系统!
框架革命:解决多模态的世纪难题
Janus-Pro 的最大创新是将视觉编码分成两个独立通道。
这就好比给人工智能配备了理解之眼和创造之手,让模型在处理 "图片描述 "和 "文本到图像 "时不再举步维艰。
其最大的突破在于全新的统一架构设计。该架构由三个核心部分组成:
自动编码器:作为核心语言模型
SigLIP-L@384:负责图像理解编码
基于 LlamaGen 的 VQ-VAE:用于生成图像
通过将视觉编码解耦为独立路径,同时保持统一的变压器架构,Janus-Pro 巧妙地解决了以往模型在视觉编码器中的角色冲突问题。
@reach_vb 指出了架构上的关键突破:
该模型基于 DeepSeek-LLM-1.5b/7b 建立,使用 SigLIP-L 处理 384×384 图像输入,并通过特定任务路径解耦编码过程。
这种设计允许模型在多模式任务之间无缝切换,同时保持单一的变压器架构。
培训战略:三步成功的进化之路
DeepSeek 团队采用了精心设计的三阶段培训流程:
第 1 阶段:在 ImageNet 数据集上训练新参数,以建立视觉元素和语言元素之间的概念联系
第 2 阶段: 引入多模态混合数据集,进行全面参数微调
第 3 阶段:通过监督微调提高指令跟踪和对话能力
对数据比率也进行了创新调整:
图像理解任务:50%(显著提高)
图像生成任务:40
文本任务:10%
@iScienceLuvr 指出了训练的秘密:
在微调的第三阶段,有意减少了文本任务的比例
这就迫使模型将计算能力集中在跨模式转换上
性能大师
这个 "全能型 "怪物在两个核心指标上表现出色!
官方测试表明,Janus-Pro 不仅超越了之前的统一模式,甚至可以与专业模式正面交锋--在理解任务中得分与 LLaVA 不相上下,在生成质量上也优于 DALL-E 3!
GenEval 得分为 0.8,令 SD3-Medium 望尘莫及
和 84.19 的 DPG-Bench 得分,其视觉创作质量接近专业设计师的水平
这是基于 7200 万张合成图像的训练策略和三个阶段的训练(适配器训练→统一预训练→监督微调),这简直把模型变成了 "多模态大师"。
@dr_cintas 发布了实际测量值的对比:
在 iPhone 上运行 4 位量化版本,推理速度接近每秒 60 个符号
生成的 384×384 缩略图可实际读取车牌文字
在多模态理解基准测试中,Janus-Pro-7B 表现出了惊人的实力:
教皇: 87.4%
MME-PT: 1567.1
MMBench: 79.2
SEED: 72.1
MMMU: 41.0
MM-Vet: 50.0
在图像生成方面,该机型的 GenEval 得分为 0.8,DPG-Bench 得分为 84.19,超过了包括 DALL-E 3 和 SD3-Medium 在内的许多主流机型。
MIT 开放源代码:自由发挥!
DeepSeek 这次扭转了局面--7B/1B 双版本完全开源,MIT 许可允许进行商业修改!
抱抱脸》可以立即下载,即使是 1B 的轻量级版本也可以在 iPhone 上本地运行。
开发者 @angrypenguinPNG 进行了现场演示:
输入 "未来城市夜景",赛博朋克街景瞬间出现
放大查看场景细节,模型可准确描述霓虹灯的渐变效果
实用价值:降低进入门槛
为满足不同场景的需求,DeepSeek 提供两个版本:
Janus-Pro-7B: 完整版,性能强大
Janus-Pro-1B:可直接在浏览器中运行的轻量级版本
这两个版本都已在 Hugging Face 平台上开源,并根据 MIT 许可发布,因此开发人员可以自由使用和修改。
DeepSeek 的全面突破
现在最令人兴奋的问题是:当理解和生成不再需要两个独立的模型时,现有的人工智能应用架构是否会被集体颠覆?
那些仍在努力开发单一模式应用软件的人,应该考虑开发左右脑协同应用软件。
毕竟,能同时玩转文字和图形的模型才是多模态的真正体现。
值得注意的是,Janus-Pro 的发布只是 DeepSeek 近期取得的一系列重大突破之一:
Perplexity 集成了 DeepSeek R1 模型,用于深度网络搜索
DeepSeek R1精简版在iPhone上的本地推理速度达到每秒60个符号
DeepSeek 人工智能助手跃居应用程序商店免费榜首
并在 Groq 平台上展示了极快的推理性能。
这些成果展示了 DeepSeek 在人工智能领域的综合实力,而 Janus-Pro 的突破性进展也为多模态人工智能的发展开辟了新的方向。
Janus pro 相关链接和文件
项目地址
型号下载:
快速体验
参考文件:
最后,我们想说:山姆-奥特曼的公司名、他画的饼、他思考的路,似乎都将传给这家好奇心驱动的中国公司,它将继续深入探索智能的边界!