Safari zatím není podporováno。

Janus Pro WebGPU je špičková aplikace určená pro jednotné multimodální porozumění a generování v prohlížeči. Využívá model Janus-Pro-1B, což je autoregresní rámec vyvinutý pro zpracování textových i obrazových vstupů a výstupů, což z něj činí univerzální nástroj pro různé úlohy umělé inteligence.

Přehled Janus Pro WebGPU

  • Rámec: Aplikace je vytvořena pomocí Reactu a Vite, využívá Transformers.js pro integraci modelu a WebGPU pro hardwarovou akceleraci.
  • Schopnosti modelu: Janus-Pro-1B vyniká v multimodálních úlohách, protože umožňuje uživatelům zadávat obrázky a přijímat generované obrázky nebo textové odpovědi. Tento model vyniká zejména schopností interpretovat a generovat obsah na základě vizuálních vstupů, čímž demonstruje pokročilé schopnosti v oblasti porozumění i generování vizuálních dat.
  • Výkon: Model funguje efektivně ve webových prohlížečích, které podporují WebGPU, jako je například Chrome. Uživatelé hlásí významné výkonnostní výhody, včetně rychlejšího odvozování v porovnání s tradičními sestavami s GPU.

Začínáme s Janus Pro WebGPU

Chcete-li nastavit a spustit aplikaci Janus Pro WebGPU lokálně, postupujte podle následujících kroků:

  1. Klonování úložiště:bashgit clone https://github.com/huggingface/transformers.js-examples.git
  2. Přejděte do adresáře projektu:bashcd transformers.js-examples/janus-webgpu
  3. Instalace závislostí:bashnpm install
  4. Spuštění vývojového serveru:bashnpm run dev Po provedení těchto příkazů otevřete prohlížeč a přejděte na adresu http://localhost:5173 pro interakci s aplikací

Specifikace modelu

  • Školení: Janus-Pro-1B je trénován pomocí lehkého distribuovaného tréninkového rámce a dosahuje konkurenceschopného výkonu v různých srovnávacích testech. Je vybaven jedinečnou architekturou, která odděluje cesty vizuálního kódování pro úlohy porozumění a generování, čímž zvyšuje stabilitu i výkonnost
  • Omezení vstupu: Model podporuje obrazové vstupy o velikosti až 384 × 384 pixelů, což může ovlivnit jeho výkon při podrobných úlohách, jako je optické rozpoznávání znaků (OCR). Uživatelé si mohou všimnout, že generované obrázky jsou sice sémanticky bohaté, ale kvůli tomuto omezení rozlišení mohou postrádat jemné detaily.
  • Otevřený zdrojový kód: Janus Pro je k dispozici pod licencí open-source, která umožňuje vývojářům volně zkoumat jeho možnosti při dodržení etických zásad používání.