Ⅰ. Τι είναι η απόσταξη γνώσης;
Η απόσταξη γνώσης είναι μια τεχνική συμπίεσης μοντέλων που χρησιμοποιείται για τη μεταφορά γνώσης από ένα μεγάλο, πολύπλοκο μοντέλο (το μοντέλο του δασκάλου) σε ένα μικρό μοντέλο (το μοντέλο του μαθητή).
Η βασική αρχή είναι ότι το εκπαιδευτικό μοντέλο διδάσκει το μαθητικό μοντέλο προβλέποντας αποτελέσματα (όπως κατανομές πιθανοτήτων ή διαδικασίες εξαγωγής συμπερασμάτων) και το μαθητικό μοντέλο βελτιώνει την απόδοσή του μαθαίνοντας από αυτές τις προβλέψεις.
Η μέθοδος αυτή είναι ιδιαίτερα κατάλληλη για συσκευές με περιορισμένους πόρους, όπως κινητά τηλέφωνα ή ενσωματωμένες συσκευές.
II.Βασικές έννοιες
2.1 Σχεδιασμός προτύπου
- Πρότυπο: Μια δομημένη μορφή που χρησιμοποιείται για την τυποποίηση των αποτελεσμάτων του μοντέλου. Για παράδειγμα
- : Σηματοδοτεί την έναρξη της διαδικασίας συλλογισμού.
- : Σηματοδοτεί το τέλος της διαδικασίας συλλογισμού.
- : Σηματοδοτεί την αρχή της τελικής απάντησης.
- : Σηματοδοτεί το τέλος της τελικής απάντησης.
- Λειτουργία:
- Σαφήνεια: Όπως οι "λέξεις προτροπής" σε μια ερώτηση συμπλήρωσης κενού, λέει στο μοντέλο "η διαδικασία σκέψης συνεχίζεται εδώ και η απάντηση εκεί".
- Συνέπεια: Διασφαλίζει ότι όλες οι εκροές ακολουθούν την ίδια δομή, διευκολύνοντας τη μετέπειτα επεξεργασία και ανάλυση.
- Αναγνωσιμότητα: Οι άνθρωποι μπορούν εύκολα να διακρίνουν τη διαδικασία συλλογισμού και την απάντηση, βελτιώνοντας την εμπειρία του χρήστη.
2.2 Τροχιά συλλογισμού: Η "αλυσίδα σκέψης" της λύσης του μοντέλου
- Τροχιά συλλογισμού: Τα λεπτομερή βήματα που παράγει το μοντέλο κατά την επίλυση ενός προβλήματος δείχνουν τη λογική αλυσίδα του μοντέλου.
- Παράδειγμα:

2.3 Δειγματοληψία απόρριψης: Φιλτράρισμα καλών δεδομένων από "δοκιμή και σφάλμα
- Δειγματοληψία απόρριψης: Δημιουργήστε πολλαπλές απαντήσεις υποψηφίων και κρατήστε τις καλές, όπως όταν γράφετε ένα προσχέδιο και στη συνέχεια αντιγράφετε τη σωστή απάντηση σε μια εξέταση.
Ⅲ.Παραγωγή αποσταγμένων δεδομένων
Το πρώτο βήμα για την απόσταξη γνώσης είναι η δημιουργία "διδακτικών δεδομένων" υψηλής ποιότητας από τα οποία μπορούν να μάθουν τα μικρά μοντέλα.
Πηγές δεδομένων:
- 80% από τα δεδομένα συλλογισμού που παράγονται από DeepSeek-R1
- 20% από τα γενικά δεδομένα εργασιών DeepSeek-V3.
Διαδικασία δημιουργίας δεδομένων απόσταξης:
- Φιλτράρισμα κανόνων: ελέγχει αυτόματα την ορθότητα της απάντησης (π.χ. αν η μαθηματική απάντηση είναι σύμφωνη με τον τύπο).
- Έλεγχος αναγνωσιμότητας: εξαλείφει τις μεικτές γλώσσες (π.χ. κινέζικα και αγγλικά μεικτά) ή τις μακροσκελείς παραγράφους.
- Δημιουργία με βάση το πρότυπο: απαιτεί από το DeepSeek-R1 να εξάγει διαδρομές συμπερασμού σύμφωνα με το πρότυπο.
- Φιλτράρισμα δειγματοληψίας απόρριψης:
- Ολοκλήρωση δεδομένωντελικά δημιουργήθηκαν 800.000 δείγματα υψηλής ποιότητας, συμπεριλαμβανομένων περίπου 600.000 δεδομένων συμπερασμού και περίπου 200.000 γενικών δεδομένων.
Ⅳ.Διαδικασία απόσταξης
Ρόλοι δασκάλου και μαθητή:
- DeepSeek-R1 ως μοντέλο δασκάλου,
- Μοντέλα σειράς Qwen ως μοντέλο μαθητή.
Βήματα εκπαίδευσης:
Πρώτον, εισαγωγή δεδομένων: πρέπει να εισαγάγετε το μέρος της ερώτησης των 800.000 δειγμάτων στο μοντέλο Qwen και να του ζητήσετε να δημιουργήσει μια πλήρη πορεία συμπερασμού (διαδικασία σκέψης + απάντηση) σύμφωνα με το πρότυπο. Αυτό είναι ένα πολύ σημαντικό βήμα
Στη συνέχεια, υπολογισμός απωλειών: σύγκριση της εξόδου που παράγεται από το μαθητικό μοντέλο με την πορεία εξαγωγής συμπερασμάτων του μοντέλου του δασκάλου και ευθυγράμμιση της ακολουθίας κειμένου μέσω επιτηρούμενης τελειοποίησης (SFT). Αν δεν είστε σίγουροι για το τι είναι η SFT, ελπίζω να αναζητήσετε αυτή τη λέξη-κλειδί για να μάθετε περισσότερα
Ολοκληρώστε τις ενημερώσεις παραμέτρων για το μεγαλύτερο μοντέλο του μαθητή: Βελτιστοποιήστε τις παραμέτρους του μοντέλου Qwen μέσω της οπισθοδιάδοσης για να προσεγγίσετε την έξοδο του μοντέλου του δασκάλου.
Η επανάληψη αυτής της εκπαιδευτικής διαδικασίας πολλές φορές εξασφαλίζει ότι η γνώση μεταφέρεται επαρκώς. Έτσι επιτυγχάνεται ο αρχικός στόχος της εκπαίδευσης. Θα σας δώσουμε ένα παράδειγμα για να το καταδείξουμε αυτό, και ελπίζουμε ότι θα καταλάβετε
Ⅴ. Παράδειγμα επίδειξης
Το άρθρο καταδεικνύει το φαινόμενο της απόσταξης μέσω μιας συγκεκριμένης εργασίας επίλυσης εξισώσεων (solve equation):
- Τυπική έξοδος του μοντέλου δασκάλου:

- Παραγωγή Qwen-7B πριν από την απόσταξη:

- Παραγωγή Qwen-7B μετά την απόσταξη:

- Βελτιστοποιημένη λύση: και η απάντηση είναι η ίδια με το μοντέλο του δασκάλου.
Ⅵ. Περίληψη
Μέσω της απόσταξης γνώσης, η ικανότητα εξαγωγής συμπερασμάτων του DeepSeek-R1 μεταφέρεται αποτελεσματικά στη σειρά μικρών μοντέλων Qwen. Αυτή η διαδικασία επικεντρώνεται στην πρότυπη έξοδο και στη δειγματοληψία απόρριψης. Μέσω της δημιουργίας δομημένων δεδομένων και της εκλεπτυσμένης εκπαίδευσης, τα μικρά μοντέλα μπορούν επίσης να εκτελούν σύνθετες εργασίες εξαγωγής συμπερασμάτων σε σενάρια με περιορισμένους πόρους. Αυτή η τεχνολογία παρέχει μια σημαντική αναφορά για την ελαφριά ανάπτυξη μοντέλων ΤΝ.