Safari пока не поддерживается。

Janus Pro WebGPU - это передовое приложение, предназначенное для унифицированного мультимодального понимания и генерации в браузере. В нем используется модель Janus-Pro-1B, которая представляет собой авторегрессионный фреймворк, разработанный для работы с текстовыми и графическими входными и выходными данными, что делает его универсальным инструментом для решения различных задач искусственного интеллекта.

Обзор Janus Pro WebGPU

  • Рамка: Приложение построено с использованием React и Vite, с применением Transformers.js для интеграции моделей и WebGPU для аппаратного ускорения.
  • Возможности модели: Janus-Pro-1B отлично справляется с мультимодальными задачами, позволяя пользователям вводить изображения и получать сгенерированные изображения или текстовые ответы. Эта модель особенно примечательна своей способностью интерпретировать и генерировать контент на основе визуальных данных, демонстрируя передовые возможности как в понимании, так и в генерировании визуальных данных.
  • Производительность: Модель эффективно работает в веб-браузерах с поддержкой WebGPU, таких как Chrome. Пользователи сообщают о значительных преимуществах в производительности, включая более быстрое нахождение выводов по сравнению с традиционными GPU-установками.

Начало работы с Janus Pro WebGPU

Чтобы настроить и запустить приложение Janus Pro WebGPU локально, выполните следующие действия:

  1. Клонирование репозитория:bashgit clone https://github.com/huggingface/transformers.js-examples.git
  2. Перейдите в каталог проекта:bashcd transformers.js-examples/janus-webgpu
  3. Установка зависимостей:bashnpm install
  4. Запустите сервер разработки:bashnpm run dev После выполнения этих команд откройте браузер и перейдите по адресу http://localhost:5173 для взаимодействия с приложением

Технические характеристики модели

  • Обучение: Janus-Pro-1B обучается с помощью легкого распределенного механизма обучения, достигая конкурентоспособной производительности в различных бенчмарках. В нем реализована уникальная архитектура, разделяющая пути визуального кодирования для задач понимания и генерации, что повышает стабильность и производительность.
  • Ограничения на ввод: Модель поддерживает изображения размером до 384 × 384 пикселей, что может повлиять на ее производительность при выполнении детальных задач, таких как оптическое распознавание символов (OCR). Пользователи могут заметить, что, хотя создаваемые изображения семантически насыщены, им может не хватать мелких деталей из-за этого ограничения разрешения.
  • Открытый исходный код: Janus Pro доступен под лицензией с открытым исходным кодом, что позволяет разработчикам свободно изучать его возможности, соблюдая при этом этические нормы использования.