Safari understøttes ikke endnu。
Janus Pro WebGPU er en banebrydende applikation designet til samlet multimodal forståelse og generering i browseren. Den udnytter Janus-Pro-1B-modellen, som er en autoregressiv ramme, der er udviklet til at håndtere både tekst- og billedinput og -output, hvilket gør den til et alsidigt værktøj til forskellige AI-opgaver.
Oversigt over Janus Pro WebGPU
- Rammeværk: Applikationen er bygget ved hjælp af React og Vite og bruger Transformers.js til modelintegration og WebGPU til hardwareacceleration.
- Modelfunktioner: Janus-Pro-1B udmærker sig i multimodale opgaver, hvor brugerne kan indtaste billeder og modtage genererede billeder eller tekstbaserede svar. Denne model er især bemærkelsesværdig for sin evne til at fortolke og generere indhold baseret på visuelle input, hvilket viser avancerede evner til både at forstå og generere visuelle data.
- Præstation: Modellen fungerer effektivt i webbrowsere, der understøtter WebGPU, såsom Chrome. Brugere har rapporteret om betydelige præstationsfordele, herunder hurtigere inferenstider sammenlignet med traditionelle GPU-opsætninger.
Kom godt i gang med Janus Pro WebGPU
Følg disse trin for at opsætte og køre Janus Pro WebGPU-applikationen lokalt:
- Klon depotet:bash
git-klon https://github.com/huggingface/transformers.js-examples.git
- Naviger til projektmappen:bash
cd transformers.js-examples/janus-webgpu
- Installer afhængigheder:bash
npm-installation
- Kør udviklingsserveren:bash
npm run dev
Når du har udført disse kommandoer, skal du åbne din browser og navigere tilhttp://localhost:5173
til at interagere med applikationen
Specifikationer for modellen
- Træning: Janus-Pro-1B trænes ved hjælp af en let, distribueret træningsramme og opnår konkurrencedygtig ydeevne på tværs af forskellige benchmarks. Den har en unik arkitektur, der adskiller visuelle kodningsveje for forståelses- og genereringsopgaver, hvilket forbedrer både stabilitet og ydeevne.
- Begrænsninger i input: Modellen understøtter billedinput på op til 384 × 384 pixels, hvilket kan påvirke dens ydeevne i detaljerede opgaver som optisk tegngenkendelse (OCR). Brugere kan bemærke, at selvom de genererede billeder er semantisk rige, kan de mangle fine detaljer på grund af denne opløsningsbegrænsning.
- Åben kildekode: Janus Pro er tilgængelig under en open source-licens, der giver udviklere mulighed for frit at udforske dens muligheder, samtidig med at de overholder etiske retningslinjer for brug.