Safari aún no es compatible。
Janus Pro WebGPU es una aplicación de vanguardia diseñada para la comprensión y generación multimodal unificada en el navegador. Aprovecha el modelo Janus-Pro-1B, que es un marco autorregresivo desarrollado para manejar entradas y salidas tanto de texto como de imágenes, lo que la convierte en una herramienta versátil para diversas tareas de IA.
Visión general de Janus Pro WebGPU
- Marco: La aplicación está construida usando React y Vite, utilizando Transformers.js para la integración de modelos y WebGPU para la aceleración de hardware.
- Capacidades del modelo: Janus-Pro-1B destaca en tareas multimodales, permitiendo a los usuarios introducir imágenes y recibir imágenes generadas o respuestas basadas en texto. Este modelo destaca especialmente por su capacidad para interpretar y generar contenidos basados en entradas visuales, lo que demuestra sus avanzadas capacidades tanto para comprender como para generar datos visuales.
- Rendimiento: El modelo funciona con eficacia en navegadores web compatibles con WebGPU, como Chrome. Los usuarios han informado de importantes ventajas de rendimiento, como tiempos de inferencia más rápidos en comparación con las configuraciones de GPU tradicionales.
Primeros pasos con Janus Pro WebGPU
Para configurar y ejecutar localmente la aplicación Janus Pro WebGPU, siga estos pasos:
- Clonar el repositorio:bash
git clone https://github.com/huggingface/transformers.js-examples.git
- Navegue hasta el directorio de proyectos:bash
cd transformadores.js-ejemplos/janus-webgpu
- Instalar dependencias:bash
npm instalar
- Ejecutar el servidor de desarrollo:bash
npm run dev
Después de ejecutar estos comandos, abra su navegador y navegue hastahttp://localhost:5173
para interactuar con la aplicación
Especificaciones del modelo
- Formación: Janus-Pro-1B se entrena utilizando un marco de entrenamiento distribuido ligero, que consigue un rendimiento competitivo en varias pruebas de referencia. Presenta una arquitectura única que separa las vías de codificación visual para las tareas de comprensión y generación, lo que mejora tanto la estabilidad como el rendimiento.
- Limitaciones de entrada: El modelo admite entradas de imagen de hasta 384 × 384 píxeles, lo que puede afectar a su rendimiento en tareas detalladas como el reconocimiento óptico de caracteres (OCR). Los usuarios pueden notar que, aunque las imágenes generadas son ricas semánticamente, pueden carecer de detalles finos debido a esta limitación de resolución
- Código abierto: Janus Pro está disponible bajo licencia de código abierto, lo que permite a los desarrolladores explorar libremente sus posibilidades respetando unas directrices éticas de uso.