尚未支援 Safari。
Janus Pro WebGPU 是專為瀏覽器內統一多模態理解和生成而設計的尖端應用程式。它運用了 Janus-Pro-1B 模型,這是為處理文字和影像輸入與輸出而開發的自回歸架構,使其成為各種 AI 任務的多用途工具。
Janus Pro WebGPU 概觀
- 架構:應用程式使用 React 和 Vite 建立,利用 Transformers.js 進行模型整合,並使用 WebGPU 進行硬體加速。
- 模型能力:Janus-Pro-1B 在多模式任務方面表現優異,可讓使用者輸入影像並接收產生的影像或以文字為基礎的回應。此機型特別值得注意的是,它能夠根據視覺輸入來詮釋和產生內容,展現出理解和產生視覺資料的先進能力。
- 效能:模型可在支援 WebGPU 的網頁瀏覽器 (例如 Chrome) 中有效運作。使用者已報告了顯著的效能優勢,包括比傳統 GPU 設定更快的推論時間。
開始使用 Janus Pro WebGPU
若要在本機設定並執行 Janus Pro WebGPU 應用程式,請遵循下列步驟:
- 複製儲存庫:bash
git clone https://github.com/huggingface/transformers.js-examples.git
- 導覽到專案目錄:bash
cd transformers.js-examples/janus-webgpu
- 安裝相依性:bash
npm 安裝
- 執行開發伺服器:bash
npm run dev
執行這些指令後,開啟瀏覽器並導航至http://localhost:5173
與應用程式互動
型號規格
- 訓練:Janus-Pro-1B 使用輕量級分散式訓練框架進行訓練,在各種基準測試中都取得了優異的效能。它採用獨特的架構,將視覺編碼路徑分離為理解和生成任務,從而增強了穩定性和性能。
- 輸入限制:本模型最多支援 384 × 384 像素的影像輸入,這可能會影響其在光學字元識別 (OCR) 等細部任務中的效能。使用者可能會注意到,雖然產生的影像語義豐富,但可能會因為解析度的限制而缺乏細節。
- 開放原始碼:Janus Pro 採用開放原始碼授權許可,讓開發人員在遵守道德使用準則的同時,自由探索其功能。