J'ai distillé les connaissances de DeepSeek-R1 en matière de capacité de raisonnement dans Qwen2, et les résultats ont été vraiment explosifs !!!
Ⅰ. Qu'est-ce que la distillation des connaissances ? La distillation des connaissances est une technique de compression de modèles utilisée pour transférer les connaissances d'un grand modèle complexe (le modèle de l'enseignant) à un petit modèle (le modèle de l'étudiant). Le principe de base est que le modèle enseignant enseigne au modèle étudiant en prédisant des résultats (tels que des distributions de probabilités ou des processus d'inférence), et le...