Safari nie jest jeszcze obsługiwane。

Janus Pro WebGPU to najnowocześniejsza aplikacja zaprojektowana do ujednoliconego multimodalnego rozumienia i generowania w przeglądarce. Wykorzystuje ona model Janus-Pro-1B, który jest autoregresyjną strukturą opracowaną do obsługi zarówno tekstowych, jak i graficznych danych wejściowych i wyjściowych, dzięki czemu jest wszechstronnym narzędziem do różnych zadań związanych ze sztuczną inteligencją.

Przegląd Janus Pro WebGPU

  • Ramy: Aplikacja została zbudowana przy użyciu React i Vite, wykorzystując Transformers.js do integracji modeli i WebGPU do akceleracji sprzętowej.
  • Możliwości modelu: Janus-Pro-1B wyróżnia się w zadaniach multimodalnych, umożliwiając użytkownikom wprowadzanie obrazów i otrzymywanie wygenerowanych obrazów lub odpowiedzi tekstowych. Model ten jest szczególnie godny uwagi ze względu na jego zdolność do interpretowania i generowania treści w oparciu o dane wizualne, prezentując zaawansowane możliwości zarówno w zakresie rozumienia, jak i generowania danych wizualnych.
  • Wydajność: Model działa wydajnie w przeglądarkach internetowych obsługujących WebGPU, takich jak Chrome. Użytkownicy zgłaszali znaczne korzyści w zakresie wydajności, w tym krótsze czasy wnioskowania w porównaniu z tradycyjnymi konfiguracjami GPU.

Pierwsze kroki z Janus Pro WebGPU

Aby skonfigurować i uruchomić aplikację Janus Pro WebGPU lokalnie, wykonaj następujące kroki:

  1. Klonowanie repozytorium:bashgit clone https://github.com/huggingface/transformers.js-examples.git
  2. Przejdź do katalogu projektu:bashcd transformers.js-examples/janus-webgpu
  3. Instalowanie zależności:bashnpm install
  4. Uruchomienie serwera deweloperskiego:bashnpm run dev Po wykonaniu tych poleceń otwórz przeglądarkę i przejdź do strony http://localhost:5173 do interakcji z aplikacją

Specyfikacja modelu

  • Szkolenie: Janus-Pro-1B jest szkolony przy użyciu lekkiej, rozproszonej struktury szkoleniowej, osiągając konkurencyjną wydajność w różnych testach porównawczych. Posiada unikalną architekturę, która oddziela ścieżki kodowania wizualnego dla zadań rozumienia i generowania, zwiększając zarówno stabilność, jak i wydajność.
  • Ograniczenia wejściowe: Model obsługuje obrazy wejściowe o rozdzielczości do 384 × 384 pikseli, co może wpływać na jego wydajność w szczegółowych zadaniach, takich jak optyczne rozpoznawanie znaków (OCR). Użytkownicy mogą zauważyć, że chociaż wygenerowane obrazy są bogate semantycznie, może im brakować drobnych szczegółów ze względu na to ograniczenie rozdzielczości
  • Open Source: Janus Pro jest dostępny na licencji open-source, umożliwiając programistom swobodne odkrywanie jego możliwości przy jednoczesnym przestrzeganiu wytycznych dotyczących etycznego użytkowania.