폭발! DeepSeek의 구정 선물-멀티모달 모델 Janus-Pro에 대한 자세한 설명
딥시크의 최신 Janus-Pro 모델 는 멀티모달 AI의 '좌뇌와 우뇌'를 직접 연결합니다!
이미지와 텍스트 이해와 이미지 생성을 동시에 할 수 있는 이 두 얼굴의 킬러는 자체 개발한 프레임워크로 업계의 규칙을 다시 쓰고 있습니다.
이는 단순한 기능의 중첩이 아니라 시각적 인코딩 경로를 분리함으로써 진정한 '하나의 마음, 두 가지 용도'를 달성한 모델입니다.
기존의 멀티모달 모델은 같은 손으로 글쓰기와 그림을 그리는 것과 같지만, Janus-Pro는 AI에 두 개의 신경 시스템을 직접 장착합니다!
프레임워크 혁명: 멀티모달리티의 세기적 문제 해결
Janus-Pro의 가장 무자비한 혁신은 비주얼 인코딩을 두 개의 독립된 채널로 분할하는 것입니다.
AI에 이해의 눈과 창작의 손을 장착하여 '그림 설명'과 '텍스트-이미지 변환'을 처리할 때 모델이 더 이상 어려움을 겪지 않도록 하는 것과 같습니다.
가장 큰 혁신은 새로운 통합 아키텍처 설계에 있습니다. 이 아키텍처는 세 가지 핵심 구성 요소로 이루어져 있습니다:
자동 인코더: 핵심 언어 모델
SigLIP-L@384: 이미지 이해 인코딩 담당
LlamaGen 기반 VQ-VAE: 이미지 생성용
Janus-Pro는 통합 트랜스포머 아키텍처를 유지하면서 비주얼 인코딩을 독립적인 경로로 분리함으로써 비주얼 인코더에서 이전 모델의 역할 충돌을 독창적으로 해결합니다.
도달_vb는 아키텍처의 핵심적인 혁신을 지적합니다:
이 모델은 DeepSeek-LLM-1.5b/7b를 기반으로 구축되었으며, SigLIP-L을 사용하여 384×384 이미지 입력을 처리하고 작업별 경로를 통해 인코딩 프로세스를 분리합니다.
이 설계를 통해 모델은 단일 트랜스포머 아키텍처를 유지하면서 멀티모달 작업 간에 원활하게 전환할 수 있습니다.
교육 전략: 3단계 성공으로 가는 진화적 경로
딥서치 팀은 신중하게 설계된 3단계 교육 프로세스를 채택했습니다:
1단계: 이미지넷 데이터 세트에 새로운 파라미터를 학습시켜 시각적 요소와 언어적 요소 간의 개념적 연결을 설정합니다.
2단계: 전체 매개변수 미세 조정을 위한 멀티모달 하이브리드 데이터 세트 도입
3단계: 감독된 미세 조정을 통해 명령 팔로우 및 대화 기능 향상
데이터 비율도 혁신적으로 조정되었습니다:
이미지 이해 작업: 50%(크게 증가)
이미지 생성 작업: 40
텍스트 작업: 10%
아이사이언스루버가 훈련의 비결을 알려드립니다:
세 번째 미세 조정 단계에서 텍스트 작업의 비율을 의도적으로 줄였습니다.
따라서 모델은 모달 간 변환에 컴퓨팅 성능을 집중해야 합니다.
성능 마스터
이 '만능' 괴물은 두 가지 핵심 지표에서 두각을 나타내고 있습니다!
공식 테스트 결과 Janus-Pro는 이전 통합 모델을 능가할 뿐만 아니라 특수 모델과 정면으로 대결하여 이해력 과제에서 LLaVA만큼 높은 점수를 획득하고 세대 품질에서 DALL-E 3를 능가하는 것으로 나타났습니다!
GenEval 점수가 0.8점인 SD3-Medium은 부끄러운 수준입니다.
DPG 벤치 점수는 84.19점으로 전문 디자이너의 시각적 제작 품질에 근접합니다.
이는 7,200만 개의 합성 이미지와 3단계의 훈련 전략(어댑터 훈련 → 통합 사전 훈련 → 감독 미세 조정)을 기반으로 말 그대로 모델을 '멀티 모달 마스터'로 탈바꿈시켰습니다.
dr_cintas가 실제 측정값을 비교하여 게시했습니다:
아이폰에서 4비트 양자화 버전을 실행하면 추론 속도가 거의 60토큰/초입니다.
생성된 384×384 썸네일은 실제로 번호판 텍스트를 읽을 수 있습니다.
멀티모달 이해도 벤치마크 테스트에서 Janus-Pro-7B는 놀라운 강점을 보였습니다:
교황: 87.4%
MME-PT: 1567.1
MMBench: 79.2
시드: 72.1
MMMU: 41.0
MM-Vet: 50.0
이미지 생성 측면에서 이 모델은 GenEval 점수 0.8점, DPG-Bench 점수 84.19점을 기록해 DALL-E 3 및 SD3-Medium을 포함한 많은 메인스트림 모델을 능가했습니다.
MIT 오픈 소스: 자유롭게 플레이하세요!
7B/1B 듀얼 버전은 완전한 오픈 소스이며, MIT 라이선스를 통해 상업적 수정이 가능합니다!
허깅 페이스는 즉시 다운로드할 수 있으며, 1B 경량 버전도 iPhone에서 로컬로 실행할 수 있습니다.
개발자 @angrypenguinPNG가 라이브 데모를 선보였습니다:
'미래 도시 야경'을 입력하면 몇 초 만에 사이버 펑크 거리 풍경이 나타납니다.
확대하여 장면의 세부 사항을 살펴보면 모델이 네온 불빛의 그라데이션을 정확하게 묘사할 수 있습니다.
실용적 가치: 진입 장벽 낮추기
다양한 시나리오의 요구 사항을 충족하기 위해 DeepSeek는 두 가지 버전을 제공합니다:
Janus-Pro-7B: 강력한 성능을 갖춘 정식 버전
Janus-Pro-1B: 브라우저에서 바로 실행할 수 있는 경량 버전
두 버전 모두 허깅 페이스 플랫폼에서 오픈소스로 제공되었으며 MIT 라이선스에 따라 출시되었으므로 개발자는 자유롭게 사용하고 수정할 수 있습니다.
딥시크의 포괄적인 혁신
이제 가장 흥미로운 질문은 이해와 생성에 더 이상 두 개의 개별 모델이 필요하지 않게 되면 기존의 AI 애플리케이션 아키텍처가 총체적으로 붕괴될 것인가 하는 점입니다.
단일 모달 애플리케이션으로 여전히 어려움을 겪고 있다면 좌뇌와 우뇌를 위한 협업 애플리케이션 개발을 고려해야 합니다.
결국 텍스트와 그래픽을 동시에 사용할 수 있는 모델이야말로 진정한 멀티모달리티의 구현입니다.
Janus-Pro의 출시는 최근 딥시크가 이룬 일련의 주요 혁신 중 하나에 불과하다는 점에 주목할 필요가 있습니다:
Perplexity는 딥 웹 검색을 위해 DeepSeek R1 모델을 통합했습니다.
DeepSeek R1 증류 버전은 iPhone에서 60 토큰/초의 로컬 추론 속도를 달성합니다.
앱스토어 무료 목록 상위권에 오른 DeepSeek AI 어시스턴트
Groq 플랫폼에서 매우 빠른 추론 성능을 보여주었습니다.
이러한 성과는 AI 분야에서 딥시크의 포괄적인 강점을 보여주며, Janus-Pro의 획기적인 발전은 멀티모달 AI 개발의 새로운 방향을 열었습니다.
야누스 프로 관련 링크 및 문서
프로젝트 주소:
모델 다운로드:
빠른 경험:
참조 문서:
마지막으로 말씀드리고 싶습니다: 샘 알트먼의 회사 이름과 그가 그려온 파이, 그리고 그가 생각한 길은 호기심 많은 중국 회사로 이어져 인텔리전스의 경계에 대한 심도 있는 탐험을 계속할 것 같습니다!