Safari는 아직 지원되지 않습니다。

Janus Pro WebGPU는 브라우저 내 통합 멀티모달 이해 및 생성을 위해 설계된 최첨단 애플리케이션입니다. 텍스트와 이미지 입출력을 모두 처리하도록 개발된 자동 회귀 프레임워크인 Janus-Pro-1B 모델을 활용하여 다양한 AI 작업을 위한 다목적 도구로 활용할 수 있습니다.

Janus Pro WebGPU 개요

  • 프레임워크: 이 애플리케이션은 React와 Vite를 사용하여 구축되었으며, 모델 통합을 위해 Transformers.js를, 하드웨어 가속을 위해 WebGPU를 활용합니다.
  • 모델 기능: Janus-Pro-1B는 사용자가 이미지를 입력하고 생성된 이미지 또는 텍스트 기반 응답을 수신할 수 있는 멀티모달 작업에 탁월합니다. 이 모델은 특히 시각적 입력을 기반으로 콘텐츠를 해석하고 생성하는 기능이 뛰어나 시각적 데이터의 이해와 생성 모두에서 고급 기능을 보여줍니다.
  • 성능: 이 모델은 Chrome과 같이 WebGPU를 지원하는 웹 브라우저에서 효율적으로 작동합니다. 사용자들은 기존 GPU 설정에 비해 추론 시간이 빨라지는 등 상당한 성능 이점을 보고했습니다.

Janus Pro WebGPU 시작하기

Janus Pro WebGPU 애플리케이션을 로컬에서 설정하고 실행하려면 다음 단계를 따르세요:

  1. 리포지토리 복제:bashgit clone https://github.com/huggingface/transformers.js-examples.git
  2. 프로젝트 디렉토리로 이동:bashcd transformers.js-examples/janus-webgpu
  3. 설치 종속성:bashnpm 설치
  4. 개발 서버 실행:bashnpm 실행 개발 이러한 명령을 실행한 후 브라우저를 열고 다음 위치로 이동합니다. http://localhost:5173 를 사용하여 애플리케이션과 상호 작용할 수 있습니다.

모델 사양

  • 교육: Janus-Pro-1B는 경량 분산 훈련 프레임워크를 사용하여 훈련되어 다양한 벤치마크에서 경쟁력 있는 성능을 달성합니다. 이해와 생성 작업을 위한 시각 인코딩 경로를 분리하여 안정성과 성능을 모두 향상시키는 고유한 아키텍처가 특징입니다.
  • 입력 제한: 이 모델은 최대 384 × 384 픽셀의 이미지 입력을 지원하므로 광학 문자 인식(OCR)과 같은 세부 작업의 성능에 영향을 줄 수 있습니다. 사용자는 생성된 이미지가 의미적으로는 풍부하지만 이 해상도 제한으로 인해 미세한 디테일이 부족하다는 것을 알 수 있습니다.
  • 오픈 소스: Janus Pro는 오픈 소스 라이선스로 제공되므로 개발자는 윤리적 사용 가이드라인을 준수하면서 자유롭게 기능을 탐색할 수 있습니다.