Safari belum didukung。

Janus Pro WebGPU adalah aplikasi mutakhir yang dirancang untuk pemahaman dan pembuatan multimodal terpadu di dalam browser. Aplikasi ini memanfaatkan model Janus-Pro-1B, yang merupakan kerangka kerja autoregresif yang dikembangkan untuk menangani input dan output teks dan gambar, menjadikannya alat serbaguna untuk berbagai tugas AI.

Gambaran umum WebGPU Janus Pro

  • Kerangka kerja: Aplikasi ini dibangun menggunakan React dan Vite, memanfaatkan Transformers.js untuk integrasi model dan WebGPU untuk akselerasi perangkat keras.
  • Kemampuan Model: Janus-Pro-1B unggul dalam tugas multimodal, memungkinkan pengguna untuk memasukkan gambar dan menerima gambar yang dihasilkan atau tanggapan berbasis teks. Model ini khususnya terkenal karena kemampuannya untuk menafsirkan dan menghasilkan konten berdasarkan input visual, menampilkan kemampuan canggih dalam memahami dan menghasilkan data visual.
  • Kinerja: Model ini beroperasi secara efisien di browser web yang mendukung WebGPU, seperti Chrome. Pengguna telah melaporkan manfaat kinerja yang signifikan, termasuk waktu inferensi yang lebih cepat dibandingkan dengan pengaturan GPU tradisional.

Memulai dengan WebGPU Janus Pro

Untuk menyiapkan dan menjalankan aplikasi WebGPU Janus Pro secara lokal, ikuti langkah-langkah berikut:

  1. Mengkloning Repositori:bashgit clone https://github.com/huggingface/transformers.js-examples.git
  2. Arahkan ke Direktori Proyek:bashcd transformers.js-examples/janus-webgpu
  3. Instal Ketergantungan:bashinstal npm
  4. Jalankan Server Pengembangan:bashnpm run dev Setelah menjalankan perintah ini, buka browser Anda dan arahkan ke http://localhost:5173 untuk berinteraksi dengan aplikasi

Spesifikasi Model

  • Pelatihan: Janus-Pro-1B dilatih menggunakan kerangka kerja pelatihan terdistribusi yang ringan, sehingga mencapai performa yang kompetitif di berbagai tolok ukur. Ini memiliki arsitektur unik yang memisahkan jalur pengkodean visual untuk tugas pemahaman dan pembuatan, meningkatkan stabilitas dan kinerja
  • Keterbatasan Masukan: Model ini mendukung input gambar hingga 384 × 384 piksel, yang dapat memengaruhi performanya dalam tugas-tugas yang mendetail, seperti optical character recognition (OCR). Pengguna mungkin memperhatikan, bahwa meskipun gambar yang dihasilkan kaya secara semantik, namun mungkin kurang detailnya karena keterbatasan resolusi ini
  • Sumber Terbuka: Janus Pro tersedia di bawah lisensi sumber terbuka, yang memungkinkan pengembang untuk mengeksplorasi kemampuannya secara bebas dengan tetap mematuhi pedoman penggunaan yang etis