Safari nie jest jeszcze obsługiwane。
Janus Pro WebGPU to najnowocześniejsza aplikacja zaprojektowana do ujednoliconego multimodalnego rozumienia i generowania w przeglądarce. Wykorzystuje ona model Janus-Pro-1B, który jest autoregresyjną strukturą opracowaną do obsługi zarówno tekstowych, jak i graficznych danych wejściowych i wyjściowych, dzięki czemu jest wszechstronnym narzędziem do różnych zadań związanych ze sztuczną inteligencją.
Przegląd Janus Pro WebGPU
- Ramy: Aplikacja została zbudowana przy użyciu React i Vite, wykorzystując Transformers.js do integracji modeli i WebGPU do akceleracji sprzętowej.
- Możliwości modelu: Janus-Pro-1B wyróżnia się w zadaniach multimodalnych, umożliwiając użytkownikom wprowadzanie obrazów i otrzymywanie wygenerowanych obrazów lub odpowiedzi tekstowych. Model ten jest szczególnie godny uwagi ze względu na jego zdolność do interpretowania i generowania treści w oparciu o dane wizualne, prezentując zaawansowane możliwości zarówno w zakresie rozumienia, jak i generowania danych wizualnych.
- Wydajność: Model działa wydajnie w przeglądarkach internetowych obsługujących WebGPU, takich jak Chrome. Użytkownicy zgłaszali znaczne korzyści w zakresie wydajności, w tym krótsze czasy wnioskowania w porównaniu z tradycyjnymi konfiguracjami GPU.
Pierwsze kroki z Janus Pro WebGPU
Aby skonfigurować i uruchomić aplikację Janus Pro WebGPU lokalnie, wykonaj następujące kroki:
- Klonowanie repozytorium:bash
git clone https://github.com/huggingface/transformers.js-examples.git
- Przejdź do katalogu projektu:bash
cd transformers.js-examples/janus-webgpu
- Instalowanie zależności:bash
npm install
- Uruchomienie serwera deweloperskiego:bash
npm run dev
Po wykonaniu tych poleceń otwórz przeglądarkę i przejdź do stronyhttp://localhost:5173
do interakcji z aplikacją
Specyfikacja modelu
- Szkolenie: Janus-Pro-1B jest szkolony przy użyciu lekkiej, rozproszonej struktury szkoleniowej, osiągając konkurencyjną wydajność w różnych testach porównawczych. Posiada unikalną architekturę, która oddziela ścieżki kodowania wizualnego dla zadań rozumienia i generowania, zwiększając zarówno stabilność, jak i wydajność.
- Ograniczenia wejściowe: Model obsługuje obrazy wejściowe o rozdzielczości do 384 × 384 pikseli, co może wpływać na jego wydajność w szczegółowych zadaniach, takich jak optyczne rozpoznawanie znaków (OCR). Użytkownicy mogą zauważyć, że chociaż wygenerowane obrazy są bogate semantycznie, może im brakować drobnych szczegółów ze względu na to ograniczenie rozdzielczości
- Open Source: Janus Pro jest dostępny na licencji open-source, umożliwiając programistom swobodne odkrywanie jego możliwości przy jednoczesnym przestrzeganiu wytycznych dotyczących etycznego użytkowania.