딥시크의 저비용 고성능 오픈소스 모델이 입소문을 타고 있습니다. 수많은 신규 사용자가 딥시크 웹사이트에 등록하면서 웹사이트가 반복적으로 다운되는 일이 발생했습니다.
인공지능 기술의 급속한 발전으로 대규모 언어 모델(LLM)은 우리의 업무와 생활의 모든 측면을 변화시키고 있습니다.
하지만 지난 시간 동안 많은 어려움과 도전도 있었습니다. 그리고 이 분야에서 딥시크는 혁신적인 기술과 뛰어난 성능으로 두각을 나타내고 있습니다.
최신 AI 모델이자 딥시크의 최신 오픈소스 멀티모달 대형 모델인 Janus Pro 딥시크에 대해 자세히 살펴봅니다. 기술적 특징, 개발 히스토리, 실제 적용 가치에 대해 알아보세요.
무엇 Janus Pro DeepSeek?

Janus Pro는 딥서치 팀이 공개한 오픈소스 멀티모달 AI 모델로, 주로 이미지 이해 및 이미지 생성에 사용됩니다.
핵심 기능
- 멀티모달 이해 및 생성: Janus Pro는 텍스트와 이미지를 동시에 처리할 수 있으며, 이미지의 내용을 이해하고 텍스트 설명을 기반으로 이미지를 생성할 수 있습니다.
- 오픈 소스 및 대규모 모델: 1B와 7B의 두 가지 파라미터 크기로 제공되며, 오픈 소스 및 상용으로 제공됩니다.
개발 Janus Pro DeepSeek
설립 및 개발
- 2023년 7월: 딥시크는 항저우에 본사를 두고 일반 인공 지능(AGI) 분야의 연구 개발에 주력하는 공식 설립 기업입니다.
- 2023년 11월 2일: 여러 프로그래밍 언어로 코드 생성, 디버깅 및 데이터 분석 작업을 지원하는 최초의 오픈 소스 코드 대형 모델 DeepSeek Coder를 출시합니다.
- 2023년 11월 29일: 파라미터 규모가 670억 개에 달하는 범용 대형 모델인 DeepSeek LLM이 기본 및 채팅 버전인 7B와 67B를 포함하여 출시되었습니다.
기술 혁신 및 제품 반복 작업
- 2024년 5월 7일: 총 2,360억 개의 파라미터와 추론 비용이 백만 토큰당 1위안으로 줄어든 2세대 오픈 소스 하이브리드 전문가(MoE) 모델인 DeepSeek-V2가 출시되었습니다.
- 2024년 12월 26일: 총 6,710억 개의 파라미터를 갖춘 DeepSeek-V3가 출시되었습니다. 혁신적인 MoE 아키텍처와 FP8 혼합 정밀도 훈련을 채택했으며, 훈련 비용은 557만 6천 달러에 불과합니다.
- 2025년 1월 20일: OpenAI의 o1 공식 버전과 동등한 성능을 갖춘 차세대 추론 모델인 DeepSeek-R1이 출시되고 오픈 소스로 공개됩니다.

1월 27일에 janus pro 멀티모달 모델 를 출시했으며, 출시 직후 오픈소스로 공개하여 더 많은 사람들이 대규모 AI 모델 개발 과정에 참여하고 제한된 자원으로 최신 AI 기술을 사용 및 학습할 수 있도록 했습니다.
Janus Pro 딥시크의 핵심 기술

시각적 코딩 디커플링
Janus Pro는 시각 인코딩 디커플링 기술을 사용하여 시각 인코딩 경로를 각각 멀티모달 이해 및 생성 작업에 사용되는 독립적인 처리 경로로 분할합니다. 이 설계는 기존 멀티모달 모델에서 이해와 생성 작업에서 시각 인코더 간의 기능 충돌 문제를 효과적으로 해결하고 모델의 유연성과 작업 적응성을 향상시킵니다.
통합 트랜스포머 아키텍처
시각적 인코딩 경로의 분리에도 불구하고 Janus Pro는 여전히 단일 Transformer 아키텍처를 사용하여 멀티모달 작업을 처리합니다. 이 통합 아키텍처는 모델 설계를 간소화하는 동시에 모델 확장성과 여러 작업에서 함께 작동하는 모델의 능력을 향상시킵니다.
최적화된 교육 전략
Janus Pro는 다음과 같이 교육 전략에 여러 가지 최적화를 적용했습니다.
- 이미지넷 데이터 세트의 학습 시간을 연장하여 모델의 이미지 이해 능력을 향상시킵니다.
- 텍스트-이미지 데이터 학습에 초점을 맞춰 모델의 생성 기능이 최적화됩니다.
- 학습 데이터의 비율을 조정하면 모델이 멀티모달 작업에서 보다 안정적이고 효율적으로 작동합니다.
확장된 학습 데이터
Janus Pro는 멀티모달 이해 데이터와 시각 생성 데이터 등 대규모의 다양한 학습 데이터를 사용합니다. 이러한 데이터의 확장은 모델의 이해 능력을 향상시킬 뿐만 아니라 생성 품질도 향상시킵니다.
혁신적인 비주얼 인코더
멀티모달 이해 작업의 경우 Janus Pro는 최대 384×384 해상도의 이미지 입력을 지원하는 시각 인코더로 SigLIP-L을 사용합니다. 이러한 고해상도 지원으로 모델이 더 많은 이미지 디테일을 캡처할 수 있어 시각적 이해의 정확도가 향상됩니다.
고성능 제너레이티브 모듈
이미지 생성 작업에서 Janus Pro는 다운샘플링 속도가 16인 라마젠 토큰라이저를 사용해 보다 세밀한 이미지를 생성합니다. 이 설계는 생성된 이미지를 더욱 사실적이고 세밀하게 만듭니다.
인프라 혁신
Janus Pro는 강력한 멀티 모달 처리 기능을 제공하는 DeepSeek-LLM-1.5b 및 DeepSeek-LLM-7b 모델을 기반으로 구축되어 멀티 모달 이해 및 생성 작업에 탁월한 성능을 발휘합니다.
멀티모달 이해 및 생성 기능
Janus Pro는 시각적 질문 답변 및 이미지 캡션과 같은 멀티모달 이해 작업을 처리할 수 있을 뿐만 아니라 텍스트 설명에서 고품질 이미지를 생성할 수도 있습니다. 이러한 기능 덕분에 멀티모달 시나리오에서 탁월한 성능을 발휘합니다.

Janus Pro DeepSeek 성능
DeepSeek의 Janus-Pro 모델은 다중 모드 이해 및 생성 작업에서 탁월한 성능을 발휘합니다. 다음은 그 성능에 대한 자세한 분석입니다:
멀티모달 이해 성능
- 엠엠벤치 벤치마크: Janus-Pro-7B는 멀티모달 이해를 위한 MMBench 벤치마크에서 79.2점을 획득하여 야누스(69.4), 토큰플로우(68.9), 메타모프(75.2) 등 기존의 최신 통합 멀티모달 모델을 능가하는 점수를 기록했습니다.
- 시각적 질문 답변: Janus-Pro의 시각적 질문 답변 정확도는 GPT-4V를 능가하여 이미지의 세부 사항을 정확하게 식별하고 관련 질문에 답변합니다.
텍스트-이미지 변환 명령 추적
- GenEval 벤치마크 테스트: Janus-Pro-7B는 GenEval 테스트에서 80%의 전체 정확도를 달성하여 DALL-E 3(67%) 및 Stable Diffusion 3 Medium(74%) 등 다른 모델보다 훨씬 뛰어난 성능을 보였습니다.
복잡한 명령 이해도: DPG-Bench 테스트에서 Janus-Pro-7B는 84.19점의 우수한 점수를 받았으며 "정상에 푸른 호수가 있는 설산"과 같은 복잡한 장면을 정확하게 생성할 수 있었습니다.
텍스트-이미지 생성 성능
- 이미지 품질과 안정성: 384×384의 출력 해상도에도 불구하고 Janus-Pro-7B가 생성하는 이미지는 특히 상상력이 풍부하고 창의적인 장면을 처리할 때 높은 수준의 사실감과 풍부한 디테일을 보여줍니다. 프롬프트 단어의 의미 정보를 정확하게 이해하고 논리적으로 합리적이고 일관된 이미지를 생성할 수 있습니다.
- 생성 속도: Janus-Pro는 단일 카드에서 4K 이미지 생성을 지원하며, 이는 안정적인 확산 3보다 2배 빠른 속도입니다.
모델 아키텍처 및 교육
- 시각 인코딩의 디커플링: Janus-Pro는 독립적인 인코딩 방법을 사용하여 원본 입력을 피처로 변환한 다음 통합 자동 회귀 트랜스포머로 처리하여 다중 모드 이해 및 생성 작업에서 시각 인코딩의 디커플링을 달성합니다.
- 훈련 데이터: Janus-Pro는 7,200만 개의 고품질 합성 이미지를 훈련에 통합하여 실제 데이터와 합성 데이터의 1:1 비율을 보장합니다. 또한 약 9천만 개의 다중 모드 이해 학습 데이터 샘플을 추가하여 모델 성능을 크게 향상시킵니다.
확장성 및 배포
모델 크기: Janus-Pro 시리즈는 성능과 컴퓨팅 비용을 모두 고려하고 더 많은 사용 사례에 적합한 1B 및 7B 매개변수 크기의 모델을 제공합니다.
최소한의 배포: Janus-Pro는 MIT 라이선스에 따라 출시되며 상업적 사용을 지원하며 두 가지 버전을 제공합니다: 표준 GPU에서 실행할 수 있는 1.5B(16GB VRAM 필요)와 7B(24GB VRAM 필요) 버전이 있습니다.
Janus Pro DeepSeek의 실제 적용 시나리오
AI 멀티모달 모델, 특히 텍스트 이미지 모델은 상업 부문에서 큰 발전 잠재력을 가지고 있습니다. 오랜 기간의 개발 끝에 AI 텍스트-이미지 모델은 이미 큰 진전을 이루었습니다.
광고 또는 포스터 디자인의 가장 일반적인 시나리오에서 디자이너나 사용자는 Janus pro를 사용하여 텍스트 설명을 입력하여 고품질 포스터를 빠르게 생성할 수 있습니다. 포스터 프로토타입을 반복하여 디자인 시간을 절약하고 크리에이티브 효율성을 향상시킬 수 있습니다. 이는 디자이너의 효율성을 크게 향상시켜 더 의미 있는 일에 시간을 할애할 수 있습니다.
전통적인 포스터 디자인이나 광고 디자인 외에도 요즘 인기 있는 게임 환경에서 AI 대형 모델은 디자이너가 게임 장면, 캐릭터 및 아이템을 실시간으로 생성하여 개발 비용과 어려움을 줄이면서 게임의 시각 효과를 향상시키는 데 도움이 될 수 있습니다. 유니티는 AI 대형 모델이 크리에이터의 잠재력과 상상력을 지속적으로 발휘하여 더욱 흥미로운 제품을 실현할 수 있다고 믿습니다.
디자인 분야 외에도 학습, 교육 및 의학의 전문 수직 분야에서도 멀티모달 모델이 크게 발전할 것입니다.
앞으로는 우리 삶의 효율성과 질을 크게 향상시킬 수 있는 매우 흥미로운 애플리케이션이 더 많이 등장할 것입니다.
한편, Janus-Pro의 오픈 소스 기능(MIT 라이선스)과 최소한의 배포 방법(표준 GPU에서 실행 지원)은 진입 장벽을 더욱 낮추어 위의 분야에 폭넓게 적용할 수 있습니다.
이를 통해 더 많은 사용자가 개발에 참여하여 더 많은 사람들이 이러한 기능을 개선하고 전체 커뮤니티의 역량을 강화할 수 있습니다.
나에게 맞는 Janus Pro DeepSeek 버전은 어떻게 선택하나요?
Janus-Pro는 두 가지 버전으로 오픈 소스화되어 있습니다: Janus-Pro-1B와 Janus-Pro-7B. 어떤 버전을 선택할지는 특정 요구 사항, 컴퓨팅 리소스 및 애플리케이션 시나리오에 따라 달라집니다. 다음은 자세한 비교 및 권장 사항입니다:
적용 가능한 시나리오
Janus-Pro-1B:
- 경량 애플리케이션: 모바일 기기, 브라우저 또는 리소스가 제한된 환경에서 사용하기에 적합합니다. 이를 통해 더 많은 사용자가 최신 야누스 프로를 경험할 수 있습니다.
- 신속한 프로토타이핑: 많은 컴퓨팅 리소스를 필요로 하지 않고도 멀티모달 기능의 신속한 개발 및 테스트에 적합합니다. 이는 많은 컴퓨팅 리소스 없이도 연구 과정에서 발생하는 문제를 빠르게 반복하고 발견할 수 있는 AI 애호가에게 매우 중요합니다.
Janus-Pro-7B:
- 고품질 이미지 생성: 광고 디자인, 게임 개발 및 예술 창작과 같이 복잡한 장면의 고품질 이미지를 생성해야 하는 애플리케이션에 적합합니다. 이 모델은 더 강력한 하드웨어 기능과 더 강력한 컴퓨팅 성능이 필요한 보다 전문적인 디자인 시나리오에 더 적합합니다.
- 복잡한 명령어 이해: 가상 현실(VR) 및 증강 현실(AR)과 같이 복잡한 텍스트 명령어를 처리하고 정확한 이미지를 생성해야 하는 시나리오에 적합합니다.
배포 요구 사항
Janus-Pro-1B:
- 하드웨어 요구 사항: 16GB VRAM이 필요한 GPU와 같이 리소스가 제한된 장치에서 실행하기에 적합합니다. 이전 그래픽 카드만 가지고 있다면 이 버전이 더 적합할 수 있습니다.
- 애플리케이션 시나리오: 브라우저에서 실행하거나 경량 디바이스에 배포하는 데 적합합니다.
Janus-Pro-7B:
- 하드웨어 요구 사항: 24GB VRAM이 장착된 GPU 등 더 높은 컴퓨팅 리소스가 필요합니다. 최신 그래픽 카드를 사용하는 사용자에게 더 적합합니다.
- 애플리케이션 시나리오: 표준 GPU에서 실행하는 경우와 고성능이 필요한 시나리오에 적합합니다.
요약
애플리케이션 시나리오에 높은 이미지 품질과 복잡한 명령어 이해가 필요하고 충분한 컴퓨팅 리소스가 있는 경우 Janus-Pro-7B를 권장합니다.
경량 배포가 필요하거나 컴퓨팅 리소스가 제한되어 있는 경우 Janus-Pro-1B를 권장합니다.
커뮤니티 지원 및 리소스
DeepSeek는 개발자에게 풍부한 리소스와 지원을 제공합니다:
- 공식 문서에서는 모델 미세 조정, 배포 튜토리얼 및 기타 콘텐츠를 포함한 자세한 API 인터페이스 설명과 기술 가이드를 제공합니다.
- 개발자 커뮤니티는 포럼과 토론 그룹을 제공하여 개발자 간의 경험 교환을 촉진합니다. 정기적인 기술 공유 세션과 해커톤이 개최됩니다.
- 기술 지원은 사용자가 사용 중 발생하는 문제를 해결하기 위해 전문적인 기술 지원 서비스를 제공합니다.