A Safari még nem támogatott。

Az Janus Pro WebGPU egy élvonalbeli alkalmazás, amelyet a böngészőben történő egységes multimodális megértésre és generálásra terveztek. Az Janus-Pro-1B modellt használja, amely egy autoregresszív keretrendszer, amelyet szöveges és képi bemenetek és kimenetek kezelésére fejlesztettek ki, így sokoldalú eszközzé teszi a különböző mesterséges intelligencia feladatokhoz.

Az Janus Pro WebGPU áttekintése

  • Keretrendszer: Az alkalmazás React és Vite használatával készült, a Transformers.js-t a modellintegrációhoz és a WebGPU-t a hardveres gyorsításhoz használva.
  • Modell képességek: Az Janus-Pro-1B kiválóan alkalmas multimodális feladatokra, lehetővé téve a felhasználók számára, hogy képeket adjanak meg, és generált képeket vagy szöveges válaszokat kapjanak. Ez a modell különösen figyelemre méltó a vizuális bemeneteken alapuló tartalom értelmezésének és generálásának képességével, amely a vizuális adatok megértésében és generálásában egyaránt fejlett képességeket mutat.
  • Teljesítmény: A modell hatékonyan működik a WebGPU-t támogató webböngészőkben, például a Chrome-ban. A felhasználók jelentős teljesítményelőnyökről számoltak be, többek között a hagyományos GPU-készletekhez képest gyorsabb következtetési időkről.

Az Janus Pro WebGPU használatának megkezdése

Az Janus Pro WebGPU alkalmazás helyi beállításához és futtatásához kövesse az alábbi lépéseket:

  1. A tároló klónozása:bashgit clone https://github.com/huggingface/transformers.js-examples.git
  2. Navigáljon a projektkönyvtárba:bashcd transformers.js-examples/janus-webgpu cd transformers.js-examples/janus-webgpu
  3. Telepítse a függőségeket:bashnpm telepítés
  4. A fejlesztői kiszolgáló futtatása:bashnpm run dev Miután végrehajtotta ezeket a parancsokat, nyissa meg a böngészőt, és navigáljon a következő oldalra http://localhost:5173 az alkalmazással való interakcióhoz

Modell specifikációk

  • Képzés: Az Janus-Pro-1B-t egy könnyű, elosztott képzési keretrendszerrel képezzük, amely versenyképes teljesítményt nyújt a különböző benchmarkok között. Egyedülálló architektúrával rendelkezik, amely elkülöníti a vizuális kódolási útvonalakat a megértési és a generálási feladatokhoz, növelve mind a stabilitást, mind a teljesítményt.
  • Bemeneti korlátozások: A modell legfeljebb 384 × 384 képpont méretű képeket támogat, ami befolyásolhatja a teljesítményét az olyan részletes feladatokban, mint az optikai karakterfelismerés (OCR). A felhasználók észrevehetik, hogy bár a generált képek szemantikailag gazdagok, a felbontáskorlátozás miatt hiányozhat belőlük a finom részletesség.
  • Nyílt forráskód: Az Janus Pro nyílt forráskódú licenc alatt érhető el, lehetővé téve a fejlesztők számára, hogy szabadon felfedezzék a képességeit, miközben betartják az etikus felhasználási irányelveket.