Ho distillato la conoscenza della capacità di ragionamento di DeepSeek-R1 in Qwen2, e i risultati sono stati davvero esplosivi!!!
Ⅰ. Che cos'è la distillazione della conoscenza? La distillazione della conoscenza è una tecnica di compressione dei modelli utilizzata per trasferire la conoscenza da un modello complesso e di grandi dimensioni (il modello insegnante) a un modello di piccole dimensioni (il modello studente). Il principio fondamentale è che il modello insegnante insegna al modello studente prevedendo i risultati (come le distribuzioni di probabilità o i processi di inferenza) e...