Jag destillerade DeepSeek-R1: s kunskap om resonemangsförmåga till Qwen2, och resultaten var verkligen explosiva !!!
Ⅰ. Vad är kunskapsdestillation? Kunskapsdestillation är en modellkomprimeringsteknik som används för att överföra kunskap från en stor, komplex modell (lärarmodellen) till en liten modell (elevmodellen). Grundprincipen är att lärarmodellen lär ut elevmodellen genom att förutsäga resultat (t.ex. sannolikhetsfördelningar eller slutledningsprocesser), och...