전체 설명: 딥시크 야누스에서 Janus-Pro까지!

메시지 가져가기: 야누스는 단순하고 통합적이며 확장 가능한 멀티모달 이해 및 생성 모델로, 멀티모달 이해와 생성된 시각적 코딩을 분리하여 두 작업 간의 잠재적인 충돌을 완화합니다. 향후 추가 입력 양식을 통합하도록 확장할 수 있습니다. Janus-Pro는 훈련 전략 최적화(훈련 단계 수 증가, 데이터 비율 조정 등), 데이터 추가(합성 데이터 사용 등), 모델 크기 확장(70억 개의 파라미터로)을 통해 이러한 기반을 구축하여 모델의 다중 모드 이해 및 텍스트-이미지 지침 준수 기능을 발전시켰습니다.

코드 주소

Janus Pro 주소

Janus-Pro 는 (1) 최적화된 학습 전략, (2) 확장된 학습 데이터, (3) 더 커진 모델 크기 등 이전 작업인 Janus의 고급 버전입니다. 이러한 개선 사항을 통해 Janus-Pro는 멀티모달 이해와 텍스트-이미지 명령어 준수 기능이 크게 향상되었으며 텍스트-이미지 생성의 안정성도 향상되었습니다. Janus-Pro의 포장을 풀기 전에 야누스를 살펴봅시다.

야누스 검토

이전 버전인 야누스는 통합된 다중 모달 이해 및 생성을 위한 자동 회귀 프레임워크로, 통합된 다중 모달 이해 및 생성을 위해 시각적 코딩을 분리하는 데 사용됩니다. 멀티모달 이해의 경우 일반적으로 LLaVA를 따르며, 시각 코더를 다리로 사용하여 대규모 언어 모델이 이미지를 이해할 수 있도록 합니다. 생성의 경우 일반적으로 확산 모델을 기반으로 하며 일부는 자동 회귀 방법을 기반으로 합니다. 일부 접근 방식은 단일 트랜스포머를 사용하여 다중 모드 이해와 생성 작업을 통합하려고 시도하며, 일반적으로 단일 시각 코더를 사용하여 두 작업의 입력을 처리합니다.

그러나 다중 모드 이해와 생성 작업에 필요한 표현에는 차이가 있습니다. 다중 모드 이해 작업에서 시각 인코더는 높은 수준의 의미 정보(예: 객체 범주 또는 시각적 속성)를 추출하는 것을 목표로 하며, 출력에는 이미지에서 정보를 추출하는 것뿐만 아니라 복잡한 의미 추론이 포함되며, 인코더는 주로 고차원 의미 표현에 중점을 둡니다. 생성 작업은 주로 이미지의 로컬 디테일을 생성하고 전체적인 일관성을 유지하는 작업이므로 공간 구조와 텍스처 디테일에 대한 저차원 코딩 표현이 필요합니다. 동일한 공간에서 두 작업의 표현을 통합하면 충돌이 발생할 수 있습니다.

야누스는 멀티모달 이해와 생성을 위한 2개의 독립적인 시각 코딩 경로를 포함하고 있으며, 두 가지 이점을 제공합니다: 1) 멀티모달 이해와 생성의 서로 다른 세분성 요구 사항으로 인한 충돌을 완화하고, 2) 유연하고 확장 가능하며, 이해와 생성 작업을 모두 해당 도메인에 맞는 최신 코딩 기술을 사용하여 코딩할 수 있도록 분리하여 향후에는 포인트 클라우드, EEG 신호 또는 오디오 데이터를 입력하고 통합된 트랜스포머를 사용하여 처리할 수 있다는 점입니다.

텍스트 이해를 위해 텍스트는 LLM에 내장된 토큰화 도구를 사용하여 개별 ID로 변환됩니다;

멀티모달 이해를 위해 이미지의 고차원 의미적 특징을 SigLIP 인코더를 사용하여 추출하고(저자 주: 코스모스는 가드레일 섹션에서도 SigLIP 인코더를 사용합니다), 추출된 특징을 어댑터(2계층 MLP)를 사용하여 LLM의 텍스트 특징 공간에 매핑합니다;

긴 쪽은 384픽셀로 조정하고 짧은 쪽은 RGB(127, 127, 127)를 사용하여 384픽셀로 채웠습니다;

시각적 생성을 위해 이미지를 VQ 토큰화기를 사용하여 개별 ID로 변환하고, 각 ID를 어댑터(2계층 MLP)를 사용하여 LLM의 텍스트 특징 공간에 매핑했습니다;

짧은 가장자리는 384픽셀로 크기를 조정하고 긴 가장자리는 384픽셀로 잘라냈습니다;

전체 훈련은 16개의 노드를 사용하여 수행되었으며, 각 노드에는 8개의 Nvidia A100 GPU가 포함되어 있습니다;

시각적 생성 및 다중 모드 이해 작업 모두에서 이미지 특징 시퀀스와 텍스트 특징 시퀀스는 LLM에 입력으로 함께 연결됩니다(텍스트에는 DeepSeek-LLM 1.3B가 사용됨);

LLM의 내장 예측 헤드는 순수 텍스트 이해와 다중 모드 이해 작업 모두에서 텍스트 예측에 활용되며, 시각 생성 작업에서는 무작위로 초기화된 예측 헤드가 이미지 예측에 사용됩니다. 전체 모델은 특별히 설계된 주의 마스크 없이도 자동 회귀 프레임워크를 준수합니다.

야누스 교육 는 3단계로 나뉩니다:

1단계

기차 어댑터 및 이미지 헤드 를 사용하여 임베딩 공간에서 언어적 요소와 시각적 요소 간의 연결을 생성하여 LLM이 이미지의 개체를 이해하고 초기 시각적 생성 기능을 갖출 수 있도록 합니다;

멀티모달 이해를 위해 SHareGPT4V의 이미지-텍스트 페어링 캡션 데이터 125만 개를 형식에 맞게 사용하세요: 형식입니다;

시각적 생성을 위해 이미지넷1k의 120만 개의 샘플을 형식으로 사용합니다: ;

2단계

통합 사전 교육통합 사전 학습을 위해 멀티모달 말뭉치를 사용하여 멀티모달 이해 및 생성을 학습합니다. 이 단계에서는 일반 텍스트 데이터, 멀티모달 이해 데이터, 시각 생성 데이터가 사용됩니다. ImageNet-1k를 사용한 간단한 시각 생성 훈련 후 일반 텍스트-이미지 데이터를 사용하여 모델의 개방형 도메인에서 시각 생성을 향상시킵니다;

일반 텍스트 데이터: DeepSeek-LLM 사전 학습된 말뭉치;

이미지-텍스트 인터리브 데이터: WikiHow 및 WIT 데이터 세트;

이미지 캡션 데이터: 여러 소스의 이미지를 오픈 소스 멀티모달 모델을 사용하여 일부 이미지에 다시 캡션한 데이터로, Q&A 쌍(예: 이미지를 자세히 설명해 주세요.)으로 형식이 지정됩니다;

표 형식 및 그래픽 데이터: 형식의 DeepSeek-VL에서 해당 표 형식 및 그래픽 데이터를 제공합니다;

시각적으로 생성된 데이터: 여러 데이터 세트의 이미지-캡션 쌍과 2백만 개의 내부 데이터;

학습 중에는 캡션의 첫 문장만 25% 확률로 무작위로 사용됩니다;

이미지넷 샘플은 초기 120,000개의 훈련 단계에만 나타나며, 다른 데이터 세트의 이미지는 이후 60,000개의 단계에 나타납니다;

3단계

감독된 미세 조정에서 사전 학습된 모델을 명령어 미세 조정 데이터를 사용하여 미세 조정하여 명령어와 대화 상자를 따르는 능력을 향상시킵니다. 생성 인코더를 제외한 모든 파라미터를 미세 조정합니다. 답변을 감독하는 동안 시스템 및 사용자 단서를 마스킹합니다. 야누스가 다중 모드 이해와 생성 모두에 능숙하도록 하기 위해 특정 작업에 대해 모델을 개별적으로 미세 조정하지 않습니다. 대신 텍스트 전용 대화 데이터, 다중 모드 이해 데이터, 시각적 생성 데이터를 혼합하여 다양한 시나리오에서 다용도로 사용할 수 있도록 합니다;

텍스트 이해: 특정 소스의 데이터를 사용합니다;

멀티모달 이해: 여러 소스의 데이터를 사용하여 인스트럭션 튜닝을 수행합니다;

시각적 생성: 일부 2단계 데이터 세트와 4백만 개의 내부 데이터에서 이미지-텍스트 쌍의 하위 집합을 사용합니다;

데이터 형식은 다음과 같습니다: 사용자: \n 어시스턴트: ;

교육 목표

야누스는 교차 엔트로피 손실 함수를 사용하여 학습된 자동 회귀 모델로, 일반 텍스트 이해 및 다중 모드 이해 작업의 경우 텍스트 시퀀스에서 손실이 계산됩니다. 시각적 생성 작업의 경우 손실은 이미지 시퀀스에서만 계산됩니다. 설계를 단순하게 유지하기 위해 다른 작업에 서로 다른 손실 가중치를 할당하지 않습니다.

추론

다음 어휘 요소 예측 방법을 사용하면 일반 텍스트 이해와 다중 모드 이해의 경우 어휘 요소가 예측 분포에서 순차적으로 샘플링됩니다. 이미지 생성에는 분류기 없는 부트스트랩이 사용됩니다.

가능한 확장 기능

멀티모달 이해를 위해 1) 더 강력한 시각적 코더를 선택하고 2) 동적 고해상도 기술을 사용할 수 있습니다;

비전 생성을 위해 1) 더 세분화된 인코더를 선택하거나, 2) 비전 생성을 위해 특별히 설계된 손실 함수를 사용하거나, 3) 인과적 주의와 병렬 방식을 결합할 수 있습니다;

더 많은 모달리티, 3D 포인트 클라우드, 햅틱, EEG 및 기타 손실 모달리티에 대한 입력을 통합할 수 있는 기능;

Janus-Pro 업그레이드

제한된 학습 데이터와 상대적으로 작은 모델 용량(1B)으로 인해 야누스는 짧은 단서에서 이미지 생성의 표현력이 떨어지고 텍스트-이미지 생성의 품질이 일관되지 않는 등 일부 측면에서 부족하며, Janus-Pro의 아키텍처는 아래 그림에서 볼 수 있는 야누스의 아키텍처와 동일합니다:

주요 개선 사항

교육 전략

1단계: 교육 단계 수를 늘리고 ImageNet에서 완전히 교육합니다;

2단계: 더 이상 ImageNet을 사용하지 않고 일반 텍스트-이미지 데이터를 직접 사용하여 교육합니다;

3단계: 미세 조정 프로세스에서 데이터 세트 비율을 수정하여 멀티모달 데이터, 일반 텍스트 데이터 및 텍스트-이미지 데이터의 비율을 7:3:10에서 5:1:4로 변경합니다;

데이터 규모

멀티모달 이해

2단계: 이미지 캡션용 YFCC와 표 및 차트 문서 이해를 위한 Doc-matrix를 포함한 9천만 개의 샘플을 추가합니다;

3단계: MEME 이해와 같은 DeepSeek-VL2 추가 데이터 세트를 추가합니다;

시각적 생성: 실제 데이터는 품질이 좋지 않아 텍스트-대-이미지 생성 및 미적 결과물이 불안정할 수 있으며, Janus-Pro는 7200만 개의 합성 미적 데이터 샘플을 사용하여 실제 데이터와 합성 데이터의 비율이 1:1로 균일한 사전 학습 단계(2단계)를 거칩니다;

모델 스케일

모델 매개변수를 70억 개의 매개변수 규모로 확장합니다;

실험 세부 정보

야누스와 비교했을 때, Janus-Pro 실험의 세부 사항은 기본적으로 동일합니다. 반면, 더 큰 매개변수 모델은 더 많은 클러스터 노드(16개에서 32개)를 사용했습니다.

Janus-Pro 트레이닝 하이퍼파라미터

불충분

다중 모드 이해의 경우 입력 해상도가 384×384로 제한되어 있어 세밀한 시각 작업의 성능에 영향을 미칩니다. 텍스트-이미지 생성의 경우 해상도가 낮으면 생성된 결과의 디테일이 부족해집니다.

전체 설명: 딥시크 야누스에서 Janus-Pro까지!

야누스 검토

야누스 교육 는 3단계로 나뉩니다:

1단계

2단계