Ich habe das Wissen über die Denkfähigkeit von DeepSeek-R1 in Qwen2 destilliert, und die Ergebnisse waren wirklich explosiv!!!
Ⅰ. Was ist Wissensdestillation? Wissensdestillation ist eine Modellkomprimierungstechnik, die dazu dient, Wissen von einem großen, komplexen Modell (dem Lehrermodell) auf ein kleines Modell (das Schülermodell) zu übertragen. Das Kernprinzip besteht darin, dass das Lehrermodell das Schülermodell lehrt, indem es Ergebnisse vorhersagt (z. B. Wahrscheinlichkeitsverteilungen oder Inferenzprozesse), und das...