Destilei o conhecimento da capacidade de raciocínio do DeepSeek-R1 para o Qwen2, e os resultados foram realmente explosivos!!!
Ⅰ. O que é destilação de conhecimento? A destilação de conhecimento é uma técnica de compressão de modelos usada para transferir conhecimento de um modelo grande e complexo (o modelo do professor) para um modelo pequeno (o modelo do aluno). O princípio básico é que o modelo do professor ensina o modelo do aluno prevendo resultados (como distribuições de probabilidade ou processos de inferência), e o modelo do aluno ensina o modelo do professor...