Ⅰ. 지식 증류란 무엇인가요?
지식 증류는 크고 복잡한 모델(교사 모델)에서 작은 모델(학생 모델)로 지식을 전달하는 데 사용되는 모델 압축 기법입니다.
핵심 원리는 교사 모델이 결과(예: 확률 분포 또는 추론 과정)를 예측하여 학생 모델을 가르치고, 학생 모델은 이러한 예측을 통해 학습함으로써 성능을 향상시키는 것입니다.
이 방법은 휴대폰이나 임베디드 디바이스와 같이 리소스가 제한된 디바이스에 특히 적합합니다.
II.핵심 개념
2.1 템플릿 디자인
- 템플릿: 모델 출력을 표준화하는 데 사용되는 구조화된 형식입니다. 예를 들면 다음과 같습니다.
- : 추론 프로세스의 시작을 표시합니다.
- : 추론 프로세스의 끝을 표시합니다.
- : 최종 답안의 시작을 표시합니다.
- : 최종 답변의 끝을 표시합니다.
- 기능:
- 명확성: 빈칸 채우기 문제의 "프롬프트 단어"처럼 모델에 "사고 과정은 여기에, 답은 저기에"라고 알려줍니다.
- 일관성: 모든 출력이 동일한 구조를 따르도록 하여 후속 처리 및 분석을 용이하게 합니다.
- 가독성: 사람은 추론 과정과 답을 쉽게 구분할 수 있어 사용자 경험을 개선할 수 있습니다.
2.2 추론 궤적: 모델 솔루션의 '사고 사슬'
- 추론 궤적: 문제를 해결할 때 모델이 생성한 세부 단계는 모델의 논리적 사슬을 보여줍니다.
- 예시:

2.3 거부 샘플링: '시행착오'에서 좋은 데이터 필터링하기
- 거부 샘플링: 시험에서 초안을 작성한 다음 정답을 복사하는 것과 유사하게 여러 개의 후보 답안을 생성하고 좋은 답안을 유지합니다.
Ⅲ.증류 데이터 생성
지식 증류의 첫 번째 단계는 소규모 모델이 학습할 수 있는 고품질의 '교육 데이터'를 생성하는 것입니다.
데이터 소스:
- 80%에서 생성된 추론 데이터로부터 DeepSeek-R1
- 20%를 DeepSeek-V3 일반 작업 데이터에서 가져옵니다.
증류 데이터 생성 프로세스:
- 규칙 필터링: 답의 정확성(예: 수학 답이 공식에 맞는지 여부)을 자동으로 확인합니다.
- 가독성 확인: 혼합 언어(예: 중국어와 영어 혼합) 또는 긴 단락을 제거합니다.
- 템플릿 가이드 생성템플릿에 따라 추론 궤적을 출력하려면 DeepSeek-R1이 필요합니다.
- 거부 샘플링 필터링:
- 데이터 통합약 60만 개의 추론 데이터와 약 20만 개의 일반 데이터를 포함하여 최종적으로 80만 개의 고품질 샘플이 생성되었습니다.
Ⅶ.증류 과정
교사 및 학생 역할:
- 교사 모델로 DeepSeek-R1을 사용하세요;
- 학생 모델인 Qwen 시리즈 모델.
교육 단계:
먼저, 데이터 입력: 80만 개의 샘플 중 질문 부분을 Qwen 모델에 입력하고 템플릿에 따라 완전한 추론 궤적(사고 과정 + 답변)을 생성하도록 요청해야 합니다. 이는 매우 중요한 단계입니다.
다음으로, 손실 계산: 학생 모델에서 생성된 출력을 교사 모델의 추론 궤적과 비교하고 감독 미세 조정(SFT)을 통해 텍스트 순서를 정렬합니다. SFT가 무엇인지 잘 모르겠다면 다음 키워드를 검색하여 자세히 알아보세요.
학생의 더 큰 모델에 대한 매개변수 업데이트를 완료합니다: 역전파를 통해 Qwen 모델의 매개 변수를 최적화하여 교사 모델의 출력에 근사치를 구합니다.
이 교육 과정을 여러 번 반복하면 지식이 충분히 전달될 수 있습니다. 이렇게 하면 원래의 교육 목표를 달성할 수 있습니다. 이를 설명하기 위해 예를 들어 설명해 드리니 이해해 주시기 바랍니다.
Ⅴ. 데모 예시
이 문서에서는 특정 방정식 풀이 작업(방정식 풀기)을 통해 증류 효과를 보여줍니다:
- 교사 모델의 표준 출력입니다:

- 증류 전 Qwen-7B 출력:

- 증류 후 Qwen-7B 출력:

- 최적화된 솔루션: 구조화된 추론 프로세스가 생성되며 답은 교사 모델과 동일합니다.
Ⅵ. 요약
지식 증류를 통해 DeepSeek-R1의 추론 기능은 소형 모델인 Qwen 시리즈에 효율적으로 마이그레이션됩니다. 이 프로세스는 템플릿화된 출력과 거부 샘플링에 중점을 둡니다. 구조화된 데이터 생성과 정교한 훈련을 통해 소규모 모델은 리소스가 제한된 시나리오에서 복잡한 추론 작업도 수행할 수 있습니다. 이 기술은 AI 모델의 경량 배포를 위한 중요한 참조를 제공합니다.