Safariはまだサポートされていません。

Janus Pro WebGPUは、ブラウザ内で統一されたマルチモーダル理解と生成のために設計された最先端のアプリケーションです。Janus-Pro-1Bモデルは、テキストと画像の両方の入出力を処理するために開発された自己回帰フレームワークであり、様々なAIタスクのための汎用性の高いツールです。

Janus Pro WebGPUの概要

  • フレームワーク:アプリケーションはReactとViteを使って構築され、モデルの統合にはTransformers.jsを、ハードウェアアクセラレーションにはWebGPUを利用しています。
  • モデルの能力:Janus-Pro-1Bはマルチモーダルなタスクを得意とし、ユーザーが画像を入力し、生成された画像やテキストベースの応答を受け取ることができる。このモデルの特筆すべき点は、視覚的な入力をもとにコンテンツを解釈・生成する能力であり、視覚データの理解と生成の両面で高度な能力を発揮する。
  • パフォーマンス:このモデルは、ChromeのようなWebGPUをサポートするウェブブラウザで効率的に動作します。ユーザーからは、従来のGPUセットアップと比較して推論時間が短縮されるなど、パフォーマンスが大幅に向上したとの報告を受けています。

Janus Pro WebGPUを使い始める

ローカルでJanus Pro WebGPUアプリケーションをセットアップして実行するには、以下の手順に従ってください:

  1. リポジトリのクローンバッシュgit clone https://github.com/huggingface/transformers.js-examples.git
  2. プロジェクト・ディレクトリに移動するバッシュcd transformers.js-examples/janus-webgpu
  3. 依存関係のインストールバッシュnpmインストール
  4. 開発サーバーの実行バッシュnpm run dev これらのコマンドを実行した後、ブラウザを開き、次の場所に移動します。 http://localhost:5173 アプリケーションと対話する

モデル仕様

  • トレーニング:Janus-Pro-1Bは軽量な分散学習フレームワークを用いて学習され、様々なベンチマークで競争力のある性能を達成している。理解タスクと生成タスクの視覚エンコード経路を分離した独自のアーキテクチャを採用し、安定性と性能の両方を向上させている。
  • 入力制限:このモデルは最大384×384ピクセルの画像入力をサポートしていますが、これは光学式文字認識(OCR)のような詳細なタスクのパフォーマンスに影響を与える可能性があります。生成された画像は意味的には豊かですが、この解像度の制限のために細かいディテールが欠けていることがあります。
  • オープンソース:Janus Proはオープンソースライセンスで提供されており、開発者は倫理的な使用ガイドラインを守りながら、自由にその機能を探求することができます。