DeepSeek-R1 érvelési képességének tudását Qwen2-be desztilláltam, és az eredmények valóban robbanásszerűek voltak!!!

Tartalomjegyzék

Ⅰ. Mi a tudás desztillálása?

A tudásdesztilláció egy olyan modelltömörítési technika, amelyet arra használnak, hogy a tudást egy nagy, összetett modellből (a tanári modellből) egy kis modellbe (a tanulói modellbe) vigyék át.

Az alapelv az, hogy a tanító modell az eredmények (például valószínűségi eloszlások vagy következtetési folyamatok) előrejelzésével tanítja a tanuló modellt, a tanuló modell pedig ezen előrejelzésekből tanulva javítja teljesítményét.

Ez a módszer különösen alkalmas erőforrás-korlátozott eszközök, például mobiltelefonok vagy beágyazott eszközök esetében.

II.Alapfogalmak

2.1 Sablonok kialakítása

Sablon: A modell kimenetének szabványosítására használt strukturált formátum. Például
- : Az érvelési folyamat kezdetét jelzi.
- : Az érvelési folyamat végét jelzi.
- : A végső válasz kezdetét jelöli.
- : A végső válasz végét jelöli.
Funkció:
- Tisztaság: Ez a modellnek azt üzeni, hogy "a gondolkodási folyamat itt kezdődik, a válasz pedig ott".
- Következetesség: Biztosítja, hogy minden kimenet ugyanazt a struktúrát kövesse, megkönnyítve a későbbi feldolgozást és elemzést.
- Olvashatóság: Az emberek könnyen meg tudják különböztetni az érvelési folyamatot és a választ, ami javítja a felhasználói élményt.

2.2 Érvelési pálya: A modell megoldásának "gondolkodási lánca"

Érvelési pálya: A modell által egy probléma megoldása során generált részletes lépések mutatják a modell logikai láncát.
Példa:

2.3 Visszautasított mintavétel: A jó adatok kiszűrése a "próba és hiba" módszerből

Visszautasított mintavétel: Több jelölt válaszának generálása és a jó válaszok megtartása, hasonlóan ahhoz, mint amikor egy vizsgán egy vázlatot írunk, majd a helyes választ lemásoljuk.

Ⅲ.A desztillált adatok előállítása

A tudás lepárlásának első lépése, hogy jó minőségű "tanítási adatokat" hozzon létre, amelyekből a kis modellek tanulhatnak.

Adatforrások:

80% az érvelési adatokból, amelyeket a DeepSeek-R1
20% a DeepSeek-V3 általános feladatadatokból.

A desztillációs adatok előállításának folyamata:

Szabályszűrés: automatikusan ellenőrzi a válasz helyességét (pl. hogy a matematikai válasz megfelel-e a képletnek).
Olvashatósági ellenőrzés: kiküszöböli a vegyes nyelveket (pl. kínai és angol vegyesen) vagy a hosszú bekezdéseket.
Sablonvezérelt generálás: a DeepSeek-R1-nek a sablon szerinti következtetési pályák kimenetéhez szükséges.
Visszautasítás mintavételezés szűrése:
Adatintegráció: 800 000 kiváló minőségű minta került végül generálásra, ebből körülbelül 600 000 következtetési adat és körülbelül 200 000 általános adat.

Ⅳ.Desztillációs eljárás

Tanár és diák szerepek:

DeepSeek-R1 mint tanári modell;
Qwen sorozatú modellek, mint a diákmodell.

Képzési lépések:

Először is, adatbevitel: a 800 000 minta kérdéses részét be kell vinni a Qwen modellbe, és meg kell kérni, hogy generáljon egy teljes következtetési pályát (gondolkodási folyamat + válasz) a sablon szerint. Ez egy nagyon fontos lépés

Ezután veszteségszámítás: a tanulómodell által generált kimenet összehasonlítása a tanári modell következtetési pályájával, és a szövegsorozat összehangolása felügyelt finomhangolással (SFT). Ha nem tudja, mi az SFT, remélem, rákeres erre a kulcsszóra, hogy többet tudjon meg.

A hallgató nagyobb modelljének teljes paraméterfrissítése: A Qwen modell paramétereinek optimalizálása backpropagációval a tanári modell kimenetének közelítése érdekében.

A képzési folyamat többszöri megismétlése biztosítja, hogy a tudás kellő mértékben átadásra kerüljön. Ezáltal megvalósul az eredeti képzési cél. Egy példával szemléltetjük ezt, és reméljük, hogy megérti.

Ⅴ. Példa bemutatására

A cikk a desztillációs hatást egy konkrét egyenletmegoldási feladaton (oldj meg egy egyenletet) keresztül mutatja be:

A tanári modell standard kimenete:

Qwen-7B kimenete desztilláció előtt:

Qwen-7B kimenet desztilláció után:

Optimalizált megoldás: Strukturált következtetési folyamat generálódik, és a válasz megegyezik a tanári modellel.

Ⅵ. Összefoglaló

A tudás lepárlásával a DeepSeek-R1 következtetési képessége hatékonyan átkerül a Qwen kis modellek sorozatába. Ez a folyamat a sablonos kimenetre és a selejtes mintavételre összpontosít. A strukturált adatgenerálás és a kifinomult képzés révén a kis modellek erőforrás-korlátozott forgatókönyvekben is képesek komplex következtetési feladatok elvégzésére. Ez a technológia fontos hivatkozási alapot nyújt a mesterséges intelligencia modellek könnyített telepítéséhez.

Hasonló hozzászólások

Nem kategorizált

Átfogó útmutató a DeepSeek-ről, egy olyan használati technikáról, amelyet 90% ember nem ismer (ajánlott könyvjelzőnek)

A általjanus-ai január 29, 2025január 29, 2025

Átfogó útmutató a DeepSeek-ről, egy olyan használati technikáról, amelyet 90% ember nem ismer (ajánlott könyvjelzőnek) Mivel a DeepSeek-V3 egy hónapja megjelent, frissítettem a DeepSeek-kel kapcsolatos cikkeket és videókat, mert szerintem ez egy nagyon fantasztikus cég. Tegnapig végre tanúi lehettünk a történelemnek, az amerikai Apple App Store tetején,...

Nem kategorizált

A kurzor támogatja a DeepSeek R1-et, és az új verziók több funkciót is frissítenek.

A általjanus-ai január 29, 2025január 29, 2025

Jelenleg túl sok mesterséges intelligencia programozó eszköz létezik: Windsurf, Trae (The Real AI Engineer), Cursor és Copilot. Ezek közül a Cursor a legfejlettebb és egyben a legdrágább is. Én már fizettem a Cursorért, és mindig figyelek a legújabb funkciókra, hogy a legjobb ár-érték arányt kapjam a pénzemért. A megjelenésével a...

Nem kategorizált

A teljes magyarázat: a DeepSeek Janustól az Janus-Pro-ig!

A általjanus-ai január 30, 2025január 30, 2025

Üzenet haza: A Janus egy egyszerű, egységes és bővíthető multimodális megértési és generálási modell, amely szétválasztja a multimodális megértést és a generált vizuális kódolást, enyhítve a két feladat közötti lehetséges konfliktusokat. A jövőben további bemeneti modalitások bevonásával bővíthető. Az Janus-Pro erre az alapra épít a képzési stratégia optimalizálásával (beleértve a...

Nem kategorizált

Mélyreható elemzés: Milyen újításokkal rendelkezik a DeepSeek újonnan megjelent Janus-Pro?

A általjanus-ai február 4, 2025február 4, 2025

A DeepSeek frissítette weboldalát. Szilveszter kora estéjén a DeepSeek hirtelen bejelentette a GitHubon, hogy a Janus projektterületen megnyitotta az Janus-Pro modell és a technikai jelentés forrását. Először is emeljünk ki néhány kulcsfontosságú pontot: Az iparág nehéz problémáját hivatott megoldani: a multimodális megértés és a képgenerálás egyensúlyban tartása szerint a...

Nem kategorizált

Késő éjjel jelent meg! A DeepSeek újradefiniálja a mesterséges intelligencia képgenerálást és -megértést, mivel debütál az úttörő Janus-Pro átfogó modell!

A általwd.gstar@gmail.com január 28, 2025január 28, 2025

Főbb jellemzők🔹 Egyesített transzformátor architektúra: 🔹 Skálázható és nyílt forráskódú: Elérhető 1B és 7B paraméteres változatban (MIT-licenc alatt), optimalizálva a különféle alkalmazásokra és kereskedelmi felhasználásra.🔹 Korszerű teljesítmény: Túlszárnyalja az OpenAI DALL-E 3 és a Stable Diffusion teljesítményét olyan benchmarkokban, mint a GenEval és a DPG-Bench.🔹 Egyszerűsített telepítés: Az egyszerűsített architektúra csökkenti a képzési/befolyásolási költségeket, miközben fenntartja a rugalmasságot. Modellkapcsolatok...

Nem kategorizált

A DeepSeek leváltja a ChatGPT-t, mint az App Store globális alkalmazásboltjának első számú alkalmazása

A általjanus-ai január 29, 2025január 29, 2025

A DeepSeek megjelent! Vajon a ChatGPT meg tudja állítani az új mesterséges intelligencia urat? A DeepSeek nemrég megjelent új nyílt forráskódú R1 modellje sokkolta a világot. Hasonlóan kiemelkedő teljesítménye és tesztadatai is rengeteg vitát váltottak ki a netezőkből. A felhasználók számára ez jobb teljesítményt és alacsonyabb árat jelent. A legfontosabb dolog azonban...

DeepSeek-R1 érvelési képességének tudását Qwen2-be desztilláltam, és az eredmények valóban robbanásszerűek voltak!!!

Ⅰ. Mi a tudás desztillálása?

II.Alapfogalmak

2.1 Sablonok kialakítása

2.2 Érvelési pálya: A modell megoldásának "gondolkodási lánca"

2.3 Visszautasított mintavétel: A jó adatok kiszűrése a "próba és hiba" módszerből

Ⅲ.A desztillált adatok előállítása

Adatforrások:

A desztillációs adatok előállításának folyamata:

Ⅳ.Desztillációs eljárás

Tanár és diák szerepek:

Képzési lépések:

Ⅴ. Példa bemutatására

Ⅵ. Összefoglaló

Átfogó útmutató a DeepSeek-ről, egy olyan használati technikáról, amelyet 90% ember nem ismer (ajánlott könyvjelzőnek)

A kurzor támogatja a DeepSeek R1-et, és az új verziók több funkciót is frissítenek.

A teljes magyarázat: a DeepSeek Janustól az Janus-Pro-ig!

Mélyreható elemzés: Milyen újításokkal rendelkezik a DeepSeek újonnan megjelent Janus-Pro?

Késő éjjel jelent meg! A DeepSeek újradefiniálja a mesterséges intelligencia képgenerálást és -megértést, mivel debütál az úttörő Janus-Pro átfogó modell!

A DeepSeek leváltja a ChatGPT-t, mint az App Store globális alkalmazásboltjának első számú alkalmazása

Vélemény, hozzászólás? Válasz megszakítása

Források

Barátok