DeepSeek-R1의 추론 능력 지식을 Qwen2로 증류했는데, 그 결과는 정말 폭발적이었습니다!!!

Ⅰ. 지식 증류란 무엇인가요?

지식 증류는 크고 복잡한 모델(교사 모델)에서 작은 모델(학생 모델)로 지식을 전달하는 데 사용되는 모델 압축 기법입니다.

핵심 원리는 교사 모델이 결과(예: 확률 분포 또는 추론 과정)를 예측하여 학생 모델을 가르치고, 학생 모델은 이러한 예측을 통해 학습함으로써 성능을 향상시키는 것입니다.

이 방법은 휴대폰이나 임베디드 디바이스와 같이 리소스가 제한된 디바이스에 특히 적합합니다.

II.핵심 개념

2.1 템플릿 디자인

템플릿: 모델 출력을 표준화하는 데 사용되는 구조화된 형식입니다. 예를 들면 다음과 같습니다.
- : 추론 프로세스의 시작을 표시합니다.
- : 추론 프로세스의 끝을 표시합니다.
- : 최종 답안의 시작을 표시합니다.
- : 최종 답변의 끝을 표시합니다.
기능:
- 명확성: 빈칸 채우기 문제의 "프롬프트 단어"처럼 모델에 "사고 과정은 여기에, 답은 저기에"라고 알려줍니다.
- 일관성: 모든 출력이 동일한 구조를 따르도록 하여 후속 처리 및 분석을 용이하게 합니다.
- 가독성: 사람은 추론 과정과 답을 쉽게 구분할 수 있어 사용자 경험을 개선할 수 있습니다.

2.2 추론 궤적: 모델 솔루션의 '사고 사슬'

추론 궤적: 문제를 해결할 때 모델이 생성한 세부 단계는 모델의 논리적 사슬을 보여줍니다.
예시:

2.3 거부 샘플링: '시행착오'에서 좋은 데이터 필터링하기

거부 샘플링: 시험에서 초안을 작성한 다음 정답을 복사하는 것과 유사하게 여러 개의 후보 답안을 생성하고 좋은 답안을 유지합니다.

Ⅲ.증류 데이터 생성

지식 증류의 첫 번째 단계는 소규모 모델이 학습할 수 있는 고품질의 '교육 데이터'를 생성하는 것입니다.

데이터 소스:

80%에서 생성된 추론 데이터로부터 DeepSeek-R1
20%를 DeepSeek-V3 일반 작업 데이터에서 가져옵니다.

증류 데이터 생성 프로세스:

규칙 필터링: 답의 정확성(예: 수학 답이 공식에 맞는지 여부)을 자동으로 확인합니다.
가독성 확인: 혼합 언어(예: 중국어와 영어 혼합) 또는 긴 단락을 제거합니다.
템플릿 가이드 생성템플릿에 따라 추론 궤적을 출력하려면 DeepSeek-R1이 필요합니다.
거부 샘플링 필터링:
데이터 통합약 60만 개의 추론 데이터와 약 20만 개의 일반 데이터를 포함하여 최종적으로 80만 개의 고품질 샘플이 생성되었습니다.

Ⅶ.증류 과정

교사 및 학생 역할:

교사 모델로 DeepSeek-R1을 사용하세요;
학생 모델인 Qwen 시리즈 모델.

교육 단계:

먼저, 데이터 입력: 80만 개의 샘플 중 질문 부분을 Qwen 모델에 입력하고 템플릿에 따라 완전한 추론 궤적(사고 과정 + 답변)을 생성하도록 요청해야 합니다. 이는 매우 중요한 단계입니다.

다음으로, 손실 계산: 학생 모델에서 생성된 출력을 교사 모델의 추론 궤적과 비교하고 감독 미세 조정(SFT)을 통해 텍스트 순서를 정렬합니다. SFT가 무엇인지 잘 모르겠다면 다음 키워드를 검색하여 자세히 알아보세요.

학생의 더 큰 모델에 대한 매개변수 업데이트를 완료합니다: 역전파를 통해 Qwen 모델의 매개 변수를 최적화하여 교사 모델의 출력에 근사치를 구합니다.

이 교육 과정을 여러 번 반복하면 지식이 충분히 전달될 수 있습니다. 이렇게 하면 원래의 교육 목표를 달성할 수 있습니다. 이를 설명하기 위해 예를 들어 설명해 드리니 이해해 주시기 바랍니다.

Ⅴ. 데모 예시

이 문서에서는 특정 방정식 풀이 작업(방정식 풀기)을 통해 증류 효과를 보여줍니다:

교사 모델의 표준 출력입니다:

증류 전 Qwen-7B 출력:

증류 후 Qwen-7B 출력:

최적화된 솔루션: 구조화된 추론 프로세스가 생성되며 답은 교사 모델과 동일합니다.

Ⅵ. 요약

지식 증류를 통해 DeepSeek-R1의 추론 기능은 소형 모델인 Qwen 시리즈에 효율적으로 마이그레이션됩니다. 이 프로세스는 템플릿화된 출력과 거부 샘플링에 중점을 둡니다. 구조화된 데이터 생성과 정교한 훈련을 통해 소규모 모델은 리소스가 제한된 시나리오에서 복잡한 추론 작업도 수행할 수 있습니다. 이 기술은 AI 모델의 경량 배포를 위한 중요한 참조를 제공합니다.

유사한 게시물

분류

야누스 시리즈: 통합 멀티모달 이해 및 생성 모델

으로wd.gstar@gmail.com 1월 28, 20251월 28, 2025

오픈 소스 혁신으로 차세대 AI 기능 활용 DeepSeek의 야누스 시리즈는 이미지 이해, 텍스트 대 이미지 생성, 고급 언어 모델링을 원활하게 통합하는 멀티모달 AI의 획기적인 도약을 의미합니다. 연구자, 개발자, 기업을 위해 설계된 이 모델은 AI 애플리케이션의 유연성과 성능을 재정의합니다. 최신 업데이트 최신 릴리스로 앞서 나가세요: 🔥 왜 야누스 시리즈를 선택해야 할까요? 1. Janus-Pro: 멀티모달 확장...

분류

DeepSeek V3 논문 세부 정보: CUDA 독점을 우회하는 방법!

으로야누스-아이 1월 29, 20251월 29, 2025

DeepSeek V3 논문 세부 정보: CUDA 독점을 우회하는 방법! 딥시크가 최근 출시한 두 가지 모델인 딥시크-V3와 딥시크-R1은 훨씬 저렴한 비용으로 OpenAI의 유사 모델과 비슷한 성능을 달성합니다. 외신 보도에 따르면, 단 두 달 만에 2,048개의 클러스터에서 6,710억 개의 파라미터로 MoE 언어 모델을 학습시켰다고 합니다.

분류

심층 분석: 딥시크가 새로 출시한 Janus-Pro에는 어떤 혁신이 있을까요?

으로야누스-아이 2월 4, 20252월 4, 2025

DeepSeek가 웹사이트를 업데이트했습니다. 새해 전야 새벽, DeepSeek는 갑자기 야누스 프로젝트 공간에서 Janus-Pro 모델과 기술 보고서를 오픈소스화했다고 GitHub를 통해 발표했습니다. 먼저 몇 가지 핵심 사항을 강조해 보겠습니다: 업계의 어려운 문제인 멀티모달 이해와 이미지 생성의 균형을 맞추기 위한 것입니다...

분류

폭발! 딥시크의 설날 선물 - 멀티모달 모델 Janus-Pro에 대한 자세한 설명

으로야누스-아이 1월 28, 20251월 28, 2025

폭발! 딥시크의 설 선물 - 멀티모달 모델 Janus-Pro에 대한 자세한 설명 딥시크의 최신 Janus-Pro 모델은 멀티모달 AI의 '좌뇌와 우뇌'를 직접 연결합니다! 이미지와 텍스트 이해와 이미지 생성을 동시에 할 수 있는 이 양면 킬러는 자체 개발한 프레임워크로 업계의 규칙을 다시 쓰고 있습니다. 이것은...

분류

앱스토어의 글로벌 앱 스토어에서 ChatGPT를 대체한 딥시크의 인기 앱