Safari stöds inte ännu。

Janus Pro WebGPU är en banbrytande applikation som är utformad för enhetlig multimodal förståelse och generering i webbläsaren. Den utnyttjar Janus-Pro-1B-modellen, som är ett autoregressivt ramverk som utvecklats för att hantera både text- och bildinmatningar och utmatningar, vilket gör det till ett mångsidigt verktyg för olika AI-uppgifter.

Översikt över Janus Pro WebGPU

  • Ramverk: Applikationen är byggd med hjälp av React och Vite, med Transformers.js för modellintegration och WebGPU för hårdvaruacceleration.
  • Modellens kapacitet: Janus-Pro-1B utmärker sig i multimodala uppgifter, vilket gör att användarna kan mata in bilder och få genererade bilder eller textbaserade svar. Denna modell är särskilt anmärkningsvärd för sin förmåga att tolka och generera innehåll baserat på visuella inmatningar, vilket visar på avancerade förmågor att både förstå och generera visuella data.
  • Prestanda: Modellen fungerar effektivt i webbläsare som stöder WebGPU, t.ex. Chrome. Användare har rapporterat betydande prestandafördelar, inklusive snabbare inferenstider jämfört med traditionella GPU-installationer.

Komma igång med Janus Pro WebGPU

Följ dessa steg för att konfigurera och köra Janus Pro WebGPU-programmet lokalt:

  1. Klona förvaret:bashgit-klon https://github.com/huggingface/transformers.js-examples.git
  2. Navigera till projektkatalogen:bashcd transformers.js-exempel/janus-webgpu
  3. Installera beroenden:bashnpm-installation
  4. Kör utvecklingsservern:bashnpm kör dev När du har utfört dessa kommandon öppnar du din webbläsare och navigerar till http://localhost:5173 för att interagera med applikationen

Modellspecifikationer

  • Utbildning: Janus-Pro-1B tränas med hjälp av ett lättviktigt distribuerat träningsramverk och uppnår konkurrenskraftiga prestanda över olika riktmärken. Den har en unik arkitektur som separerar visuella kodningsvägar för förståelse och genereringsuppgifter, vilket förbättrar både stabilitet och prestanda
  • Begränsningar för inmatning: Modellen stöder bildinmatningar på upp till 384 × 384 pixlar, vilket kan påverka dess prestanda i detaljerade uppgifter som optisk teckenigenkänning (OCR). Användare kan märka att även om de genererade bilderna är semantiskt rika kan de sakna fina detaljer på grund av denna upplösningsbegränsning
  • Öppen källkod: Janus Pro är tillgänglig under en öppen källkodslicens, vilket gör det möjligt för utvecklare att utforska dess funktioner fritt samtidigt som de följer etiska riktlinjer för användning