Я перенес знания DeepSeek-R1 о способности рассуждать на Qwen2, и результаты оказались просто взрывными!!!
Ⅰ. Что такое дистилляция знаний? Дистилляция знаний - это техника сжатия модели, используемая для передачи знаний от большой, сложной модели (модели учителя) к маленькой модели (модели ученика). Основной принцип заключается в том, что модель учителя обучает модель ученика, предсказывая результаты (например, распределения вероятностей или процессы вывода), а...