O Safari ainda não é compatível。
O Janus Pro WebGPU é um aplicativo de ponta projetado para geração e compreensão multimodal unificada no navegador. Ele utiliza o modelo Janus-Pro-1B, que é uma estrutura autorregressiva desenvolvida para lidar com entradas e saídas de texto e imagem, o que o torna uma ferramenta versátil para várias tarefas de IA.
Visão geral do Janus Pro WebGPU
- Estrutura: O aplicativo foi desenvolvido com React e Vite, utilizando Transformers.js para integração de modelos e WebGPU para aceleração de hardware.
- Recursos do modelo: O Janus-Pro-1B é excelente em tarefas multimodais, permitindo que os usuários insiram imagens e recebam imagens geradas ou respostas baseadas em texto. Esse modelo é particularmente notável por sua capacidade de interpretar e gerar conteúdo com base em entradas visuais, demonstrando recursos avançados tanto na compreensão quanto na geração de dados visuais.
- Desempenho: O modelo opera com eficiência em navegadores da Web compatíveis com WebGPU, como o Chrome. Os usuários relataram benefícios significativos de desempenho, incluindo tempos de inferência mais rápidos em comparação com as configurações tradicionais de GPU.
Primeiros passos com o Janus Pro WebGPU
Para configurar e executar o aplicativo Janus Pro WebGPU localmente, siga estas etapas:
- Clonar o repositório:bash
git clone https://github.com/huggingface/transformers.js-examples.git
- Navegue até o diretório do projeto:bash
cd transformers.js-examples/janus-webgpu
- Instalar dependências:bash
npm install
- Executar o servidor de desenvolvimento:bash
npm run dev
Depois de executar esses comandos, abra seu navegador e navegue atéhttp://localhost:5173
para interagir com o aplicativo
Especificações do modelo
- Treinamento: O Janus-Pro-1B é treinado usando uma estrutura leve de treinamento distribuído, alcançando desempenho competitivo em vários benchmarks. Ele apresenta uma arquitetura exclusiva que separa as vias de codificação visual para tarefas de compreensão e geração, melhorando a estabilidade e o desempenho
- Limitações de entrada: O modelo suporta entradas de imagem de até 384 × 384 pixels, o que pode afetar seu desempenho em tarefas detalhadas, como o reconhecimento óptico de caracteres (OCR). Os usuários podem perceber que, embora as imagens geradas sejam semanticamente ricas, elas podem não ter detalhes finos devido a essa limitação de resolução
- Código aberto: O Janus Pro está disponível sob uma licença de código aberto, permitindo que os desenvolvedores explorem seus recursos livremente, respeitando as diretrizes de uso ético