DeepSeek-R1の推理能力に関する知識をQwen2に集約した！- ヤヌスAI.プロ

Ⅰ. 知識の蒸留とは何か？

知識蒸留は、大きく複雑なモデル（教師モデル）から小さなモデル（生徒モデル）に知識を伝達するために使用されるモデル圧縮技術です。

核となる原理は、教師モデルが結果（確率分布や推論プロセスなど）を予測することによって生徒モデルに教え、生徒モデルはこれらの予測から学習することによってパフォーマンスを向上させるというものである。

この方法は、携帯電話や組み込み機器など、リソースに制約のある機器に特に適している。

II.コア・コンセプト

2.1 テンプレートデザイン

テンプレート：モデルの出力を標準化するために使用される構造化されたフォーマット。例
- :推理プロセスの始まりを示す。
- :推理プロセスの終了を示す。
- :最終的な答えの始まりを示す。
- :最終的な答えの終わりを示す。
機能：
- 明確さ：穴埋め問題の「促しの言葉」のように、「思考プロセスはここにあり、答えはそこにある」ということをモデルに伝える。
- 一貫性：すべての出力が同じ構造に従っていることを保証し、その後の処理や分析を容易にする。
- 読みやすさ：人間は推論プロセスと答えを容易に区別することができ、ユーザーエクスペリエンスを向上させる。

2.2 推論の軌跡：モデル解答の「思考の連鎖

推論の軌跡：問題を解く際にモデルが生成する詳細なステップは、モデルの論理的連鎖を示す。
例

2.3 拒否サンプリング：試行錯誤」から良いデータを選別する

不合格サンプリング：試験で下書きを書いてから正解を書き写すのと同じように、複数の回答候補を作成し、良いものを残す。

.蒸留データの生成

知識抽出の最初のステップは、小さなモデルが学習するための高品質な「ティーチングデータ」を生成することである。

データソース:

によって生成された推論データから80%を得た。ディープシーク-R1
DeepSeek-V3の一般タスクデータから20%。

蒸留データ生成プロセス:

ルール・フィルタリング例えば、数学的な答えが数式に合っているかどうかなど）。
読みやすさのチェック中国語と英語の混在言語や長い段落を排除。
テンプレート誘導型生成DeepSeek-R1がテンプレートに従って推論軌跡を出力する必要があります。
拒絶サンプリング・フィルタリング:
データ統合最終的に、約60万件の推論データと約20万件の一般データを含む、80万件の高品質サンプルが生成された。

IV.蒸留プロセス

教師と生徒の役割

教師モデルとしてのDeepSeek-R1；
Qwenシリーズの学生モデル。

トレーニングのステップ

まず、データ入力：80万サンプルの質問部分をQwenモデルに入力し、テンプレートに従って完全な推論の軌跡（思考プロセス＋回答）を生成するように依頼する必要がある。これは非常に重要なステップである

次に、損失計算：生徒モデルが生成した出力と教師モデルの推論軌跡を比較し、教師あり微調整（SFT）によりテキスト列を揃える。SFTとは何かわからない方は、このキーワードで検索していただければと思います。

生徒の大きなモデルのパラメータ更新を完了する：教師モデルの出力を近似するために、バックプロパゲーションを通してQwenモデルのパラメータを最適化する。

このトレーニングプロセスを何度も繰り返すことで、知識が十分に伝達される。これにより、本来のトレーニングの目的が達成される。このことを実証するために例を挙げますので、ご理解いただければ幸いです。

Ⅴ.デモンストレーション例

この記事では、特定の方程式を解くタスク（方程式を解く）を通して、蒸留効果を実証している：

教師モデルの標準出力：

蒸留前のQwen-7Bの出力：

蒸留後のQwen-7Bの出力：

最適化された解：構造化された推論プロセスが生成され、答えは教師モデルと同じになる。

Ⅵ.まとめ

知識の蒸留を通じて、DeepSeek-R1 の推論能力は、Qwen シリーズの小さなモデルに効率的に移行されます。このプロセスは、テンプレート化された出力と拒絶サンプリングに重点を置いています。構造化されたデータ生成と洗練された学習により、小型モデルはリソースに制約のあるシナリオでも複雑な推論タスクを実行することができる。この技術は、AIモデルの軽量展開のための重要なリファレンスを提供する。

類似の投稿

未分類

ローカルコンピュータにDeepSeek R1をインストールして使用する方法

によるヤヌス会 1月 30, 20251月 30, 2025

中国のAI企業DeepSeekが開発した新しいオープンソースのAI言語モデル、DeepSeek R1が今人気だ。一部のユーザーは、推論能力においてOpenAIのo1に匹敵するか、それよりも強いと主張している。現在、DeepSeekは無料であり、ユーザーにとっては朗報だが、いくつかの疑問も生じている。どのように...

未分類

ディープシークがまた新たなコンボを発表：DALL-E3を凌ぐマルチモーダルモデルJanus Proを発表した。

によるヤヌス会 1月 28, 20251月 28, 2025

AI時代が静かに到来した。今年の旧正月、最もホットな話題は、春節ガラと提携した伝統的なインターネットの赤い封筒合戦ではなく、AI企業になるとは、おそらく誰も予想していなかっただろう。春節が近づくにつれ、大手モデル企業はまったく気を緩めることなく、波状攻撃を仕掛けてきた。

未分類

徹底分析：ディープシークが新たにリリースしたJanus-Proにはどんな革新性があるのか？

によるヤヌス会 2月 4, 20252月 4, 2025

ディープシークがウェブサイトを更新大晦日の早朝、DeepSeekは突然GitHubでJanusプロジェクトスペースがJanus-Proモデルとテクニカルレポートのソースをオープンしたと発表した。まず、いくつかのポイントを強調しておこう：マルチモーダル理解と画像生成のバランスという業界の難題を解決することを目的としている従った...

未分類

DeepSeekがChatGPTに代わってApp Storeのグローバルアプリストアでトップアプリに

によるヤヌス会 1月 29, 20251月 29, 2025

ディープシーク出現！ChatGPTは新たなAIの支配者を止められるか？少し前に公開されたDeepSeekの新しいオープンソースモデルR1は世界に衝撃を与えた。同じく卓越した性能とテストデータは、ネットユーザーからも多くの議論を集めている。ユーザーにとっては、性能向上と低価格化を意味する。最も重要なことは...

未分類

ディープシークのJanus-Proの実力は？

によるヤヌス会 2月 4, 20252月 4, 2025

春節の前夜、DeepSeek-R1モデルがリリースされた。純粋なRLアーキテクチャにより、CoTの偉大な革新から学び、数学、コード、論理的推論においてChatGPTを凌駕しています。さらに、オープンソースのモデル重み、低いトレーニングコスト、安価なAPI価格は、DeepSeekをインターネット上でヒットさせ、...

未分類

エヌビディアとマイクロソフトがディープシークを初めて統合、オープンAIは2800億円の新規資金調達を急ぐ

によるヤヌス会 1月 31, 20251月 31, 2025

Open AI緊急融資 DeepSeekが衝撃を与える中、シリコンバレーはあまりにもエキサイティングだ。昨日まで、OpenAIとAnthropicはまだ先頭を走っており、競合を追い詰めるためにあらゆる手段を試みていた。一夜にして、インフラベンダーは突然「本当に興味がある」と言い出した。マイクロソフトに続き、NVIDIAとAWSもDeepSeekモデルのホスティングを開始した。

DeepSeek-R1の推理力に関する知識をQwen2に落とし込んだ！

Ⅰ. 知識の蒸留とは何か？