A Safari még nem támogatott。
Az Janus Pro WebGPU egy élvonalbeli alkalmazás, amelyet a böngészőben történő egységes multimodális megértésre és generálásra terveztek. Az Janus-Pro-1B modellt használja, amely egy autoregresszív keretrendszer, amelyet szöveges és képi bemenetek és kimenetek kezelésére fejlesztettek ki, így sokoldalú eszközzé teszi a különböző mesterséges intelligencia feladatokhoz.
Az Janus Pro WebGPU áttekintése
- Keretrendszer: Az alkalmazás React és Vite használatával készült, a Transformers.js-t a modellintegrációhoz és a WebGPU-t a hardveres gyorsításhoz használva.
- Modell képességek: Az Janus-Pro-1B kiválóan alkalmas multimodális feladatokra, lehetővé téve a felhasználók számára, hogy képeket adjanak meg, és generált képeket vagy szöveges válaszokat kapjanak. Ez a modell különösen figyelemre méltó a vizuális bemeneteken alapuló tartalom értelmezésének és generálásának képességével, amely a vizuális adatok megértésében és generálásában egyaránt fejlett képességeket mutat.
- Teljesítmény: A modell hatékonyan működik a WebGPU-t támogató webböngészőkben, például a Chrome-ban. A felhasználók jelentős teljesítményelőnyökről számoltak be, többek között a hagyományos GPU-készletekhez képest gyorsabb következtetési időkről.
Az Janus Pro WebGPU használatának megkezdése
Az Janus Pro WebGPU alkalmazás helyi beállításához és futtatásához kövesse az alábbi lépéseket:
- A tároló klónozása:bash
git clone https://github.com/huggingface/transformers.js-examples.git
- Navigáljon a projektkönyvtárba:bash
cd transformers.js-examples/janus-webgpu cd transformers.js-examples/janus-webgpu
- Telepítse a függőségeket:bash
npm telepítés
- A fejlesztői kiszolgáló futtatása:bash
npm run dev
Miután végrehajtotta ezeket a parancsokat, nyissa meg a böngészőt, és navigáljon a következő oldalrahttp://localhost:5173
az alkalmazással való interakcióhoz
Modell specifikációk
- Képzés: Az Janus-Pro-1B-t egy könnyű, elosztott képzési keretrendszerrel képezzük, amely versenyképes teljesítményt nyújt a különböző benchmarkok között. Egyedülálló architektúrával rendelkezik, amely elkülöníti a vizuális kódolási útvonalakat a megértési és a generálási feladatokhoz, növelve mind a stabilitást, mind a teljesítményt.
- Bemeneti korlátozások: A modell legfeljebb 384 × 384 képpont méretű képeket támogat, ami befolyásolhatja a teljesítményét az olyan részletes feladatokban, mint az optikai karakterfelismerés (OCR). A felhasználók észrevehetik, hogy bár a generált képek szemantikailag gazdagok, a felbontáskorlátozás miatt hiányozhat belőlük a finom részletesség.
- Nyílt forráskód: Az Janus Pro nyílt forráskódú licenc alatt érhető el, lehetővé téve a fejlesztők számára, hogy szabadon felfedezzék a képességeit, miközben betartják az etikus felhasználási irányelveket.