Safari 尚不支持。
Janus Pro WebGPU 是专为浏览器内统一多模态理解和生成而设计的尖端应用程序。它利用 Janus-Pro-1B 模型,该模型是一个自回归框架,可同时处理文本和图像的输入和输出,使其成为执行各种人工智能任务的通用工具。
Janus Pro WebGPU 概览
- 框架:该应用程序使用 React 和 Vite 构建,利用 Transformers.js 进行模型集成,并使用 WebGPU 进行硬件加速。
- 模型功能:Janus-Pro-1B 在多模式任务中表现出色,允许用户输入图像并接收生成的图像或基于文本的响应。该机型尤其擅长根据视觉输入解释和生成内容,展示了在理解和生成视觉数据方面的先进能力。
- 性能:该模型可在支持 WebGPU 的网络浏览器(如 Chrome 浏览器)中高效运行。据用户报告,该模型的性能优势明显,与传统的 GPU 设置相比,推理时间更短。
Janus Pro WebGPU 入门
要在本地设置并运行 Janus Pro WebGPU 应用程序,请按照以下步骤操作:
- 克隆存储库抨击
git clone https://github.com/huggingface/transformers.js-examples.git
- 导航至项目目录抨击
cd transformers.js-examples/janus-webgpu
- 安装依赖项抨击
npm install
- 运行开发服务器抨击
npm run dev
执行这些命令后,打开浏览器并导航至http://localhost:5173
与应用程序交互
型号规格
- 培训:Janus-Pro-1B 采用轻量级分布式训练框架进行训练,在各种基准测试中取得了极具竞争力的性能。它采用独特的架构,将用于理解和生成任务的视觉编码路径分开,从而提高了稳定性和性能
- 输入限制:该模型支持最大 384 × 384 像素的图像输入,这可能会影响其在光学字符识别 (OCR) 等细节任务中的性能。用户可能会注意到,虽然生成的图像语义丰富,但由于分辨率的限制,可能缺乏精细的细节。
- 开放源代码:Janus Pro 采用开源许可,允许开发人员自由探索其功能,同时遵守道德使用指南