Safari пока не поддерживается。
Janus Pro WebGPU - это передовое приложение, предназначенное для унифицированного мультимодального понимания и генерации в браузере. В нем используется модель Janus-Pro-1B, которая представляет собой авторегрессионный фреймворк, разработанный для работы с текстовыми и графическими входными и выходными данными, что делает его универсальным инструментом для решения различных задач искусственного интеллекта.
Обзор Janus Pro WebGPU
- Рамка: Приложение построено с использованием React и Vite, с применением Transformers.js для интеграции моделей и WebGPU для аппаратного ускорения.
- Возможности модели: Janus-Pro-1B отлично справляется с мультимодальными задачами, позволяя пользователям вводить изображения и получать сгенерированные изображения или текстовые ответы. Эта модель особенно примечательна своей способностью интерпретировать и генерировать контент на основе визуальных данных, демонстрируя передовые возможности как в понимании, так и в генерировании визуальных данных.
- Производительность: Модель эффективно работает в веб-браузерах с поддержкой WebGPU, таких как Chrome. Пользователи сообщают о значительных преимуществах в производительности, включая более быстрое нахождение выводов по сравнению с традиционными GPU-установками.
Начало работы с Janus Pro WebGPU
Чтобы настроить и запустить приложение Janus Pro WebGPU локально, выполните следующие действия:
- Клонирование репозитория:bash
git clone https://github.com/huggingface/transformers.js-examples.git
- Перейдите в каталог проекта:bash
cd transformers.js-examples/janus-webgpu
- Установка зависимостей:bash
npm install
- Запустите сервер разработки:bash
npm run dev
После выполнения этих команд откройте браузер и перейдите по адресуhttp://localhost:5173
для взаимодействия с приложением
Технические характеристики модели
- Обучение: Janus-Pro-1B обучается с помощью легкого распределенного механизма обучения, достигая конкурентоспособной производительности в различных бенчмарках. В нем реализована уникальная архитектура, разделяющая пути визуального кодирования для задач понимания и генерации, что повышает стабильность и производительность.
- Ограничения на ввод: Модель поддерживает изображения размером до 384 × 384 пикселей, что может повлиять на ее производительность при выполнении детальных задач, таких как оптическое распознавание символов (OCR). Пользователи могут заметить, что, хотя создаваемые изображения семантически насыщены, им может не хватать мелких деталей из-за этого ограничения разрешения.
- Открытый исходный код: Janus Pro доступен под лицензией с открытым исходным кодом, что позволяет разработчикам свободно изучать его возможности, соблюдая при этом этические нормы использования.