Jeg destillerede DeepSeek-R1's viden om ræsonneringsevne ind i Qwen2, og resultaterne var virkelig eksplosive!!!

Indholdsfortegnelse

Ⅰ. Hvad er vidensdestillation?

Vidensdestillation er en modelkomprimeringsteknik, der bruges til at overføre viden fra en stor, kompleks model (lærermodellen) til en lille model (elevmodellen).

Det centrale princip er, at lærermodellen underviser elevmodellen ved at forudsige resultater (f.eks. sandsynlighedsfordelinger eller slutningsprocesser), og elevmodellen forbedrer sin præstation ved at lære af disse forudsigelser.

Denne metode er særligt velegnet til enheder med begrænsede ressourcer, som f.eks. mobiltelefoner eller indlejrede enheder.

II. centrale begreber

2.1 Design af skabelon

Skabelon: Et struktureret format, der bruges til at standardisere modeloutput. For eksempel
- : Markerer begyndelsen på ræsonnementsprocessen.
- : Markerer afslutningen på ræsonnementsprocessen.
- : Markerer begyndelsen af det endelige svar.
- : Markerer afslutningen på det endelige svar.
Funktion:
- Klarhed: Ligesom "spørgeordene" i et udfyldningsspørgsmål fortæller det modellen, at "tænkeprocessen foregår her, og svaret foregår der."
- Konsistens: Sikrer, at alle outputs følger samme struktur, hvilket letter efterfølgende behandling og analyse.
- Læsbarhed: Mennesker kan nemt skelne mellem ræsonnementsprocessen og svaret, hvilket forbedrer brugeroplevelsen.

2.2 Ræsonnementets bane: "Tænkekæden" i modellens løsning

Ræsonnementets bane: De detaljerede trin, som modellen genererer, når den løser et problem, viser modellens logiske kæde.
Et eksempel:

2.3 Afvisning af prøveudtagning: Filtrering af gode data fra "trial and error

Afvisning af prøver: Generer flere kandidatsvar og behold de gode, ligesom når man skriver en kladde og derefter kopierer det rigtige svar i en eksamen.

Generering af destillerede data

Det første skridt i vidensdestillation er at generere "undervisningsdata" af høj kvalitet, som små modeller kan lære af.

Datakilder:

80% fra de ræsonnerende data genereret af DeepSeek-R1
20% fra DeepSeek-V3 generelle opgavedata.

Proces til generering af destillationsdata:

Filtrering af regler: kontrollerer automatisk svarets korrekthed (f.eks. om det matematiske svar er i overensstemmelse med formlen).
Tjek af læsbarhed: eliminerer blandede sprog (f.eks. kinesisk og engelsk blandet) eller lange afsnit.
Skabelonstyret generering: kræver, at DeepSeek-R1 udsender slutningsbaner i henhold til skabelonen.
Filtrering af afvisningsprøver:
Integration af dataTil sidst blev der genereret 800.000 prøver af høj kvalitet, herunder ca. 600.000 inferensdata og ca. 200.000 generelle data.

Ⅳ.Destillationsproces

Lærer- og elevroller:

DeepSeek-R1 som lærermodel;
Modeller i Qwen-serien som elevmodel.

Træningstrin:

Først datainput: Du skal indtaste spørgsmålsdelen af de 800.000 prøver i Qwen-modellen og bede den om at generere en komplet slutningsbane (tankeproces + svar) i henhold til skabelonen. Dette er et meget vigtigt trin

Dernæst tabsberegning: Sammenlign det output, der genereres af elevmodellen, med lærermodellens inferensbane, og juster tekstsekvensen gennem supervised fine-tuning (SFT). Hvis du ikke er sikker på, hvad SFT er, håber jeg, at du vil søge efter dette nøgleord for at lære mere

Gennemfør parameteropdateringer for elevens større model: Optimer Qwen-modellens parametre gennem backpropagation for at tilnærme sig lærermodellens output.

Ved at gentage denne træningsproces flere gange sikres det, at viden overføres i tilstrækkelig grad. På den måde opnås det oprindelige mål med træningen. Vi vil give dig et eksempel for at demonstrere dette, og vi håber, at du vil forstå det

Ⅴ. Eksempel på demonstration

Artiklen demonstrerer destillationseffekten gennem en specifik ligningsløsningsopgave (solve equation):

Standardoutput fra lærermodellen:

Qwen-7B output før destillation:

Qwen-7B output efter destillation:

Optimeret løsning: Der genereres en struktureret slutningsproces, og svaret er det samme som lærermodellen.

Ⅵ. Sammenfatning

Gennem vidensdestillation overføres DeepSeek-R1's slutningsevne effektivt til Qwen-serien af små modeller. Denne proces fokuserer på templated output og rejection sampling. Gennem struktureret datagenerering og raffineret træning kan små modeller også udføre komplekse inferensopgaver i ressourcebegrænsede scenarier. Denne teknologi giver en vigtig reference til letvægtsudrulning af AI-modeller.

Lignende indlæg

Ikke kategoriseret

Janus Pro DeepSeek: Dyk ned i teknologien og anvendelsen af den nyeste AI-model | Udforsk den innovative kraft bag den

Afjanus-ai 29. januar 202529. januar 2025

deepseeks billige, højtydende open source-model er gået viralt. Et stort antal nye brugere har registreret sig på deepseeks hjemmeside, hvilket gentagne gange har fået hjemmesiden til at gå ned. Med den hurtige udvikling af kunstig intelligens-teknologi ændrer store sprogmodeller (LLM'er) alle aspekter af vores arbejde og liv. Men der har også været mange...

Ikke kategoriseret

Detaljer om DeepSeek V3-papiret: Sådan omgår du CUDA-monopolet!

Afjanus-ai 29. januar 202529. januar 2025

Detaljer om DeepSeek V3-papiret: Sådan omgår du CUDA-monopolet! DeepSeeks to nyligt udgivne modeller, DeepSeek-V3 og DeepSeek-R1, opnår en ydeevne, der kan sammenlignes med lignende modeller fra OpenAI til en meget lavere pris. Ifølge udenlandske medierapporter har de på bare to måneder trænet en MoE-sprogmodel med 671 milliarder parametre på en klynge af 2.048...

Ikke kategoriseret

NVIDIA og Microsoft er de første til at integrere Deepseek, mens OpenAI er i fuld gang med at rejse 280 milliarder i ny finansiering

Afjanus-ai 31. januar 202531. januar 2025

Open AI presserende finansiering Med DeepSeek, der gør sin indflydelse gældende, er Silicon Valley bare for spændende. I går var det stadig OpenAI og Anthropic, der førte an og forsøgte at snyde konkurrenterne på alle mulige måder. Fra den ene dag til den anden er leverandørerne af infrastruktur pludselig blevet "virkelig interesserede". Efter Microsoft har NVIDIA og AWS også fremskyndet lanceringen af DeepSeek-modelhosting...

Ikke kategoriseret

Markøren understøtter DeepSeek R1, og nye versioner opdaterer flere funktioner

Afjanus-ai 29. januar 202529. januar 2025

I øjeblikket er der for mange AI-programmeringsværktøjer: Windsurf, Trae (The Real AI Engineer), Cursor og Copilot. Blandt disse er Cursor det mest avancerede og også det dyreste. Jeg har allerede betalt for Cursor og er altid opmærksom på de nyeste funktioner for at få mest mulig værdi for pengene. Med fremkomsten af...

Ikke kategoriseret

Sådan installerer og bruger du DeepSeek R1 på din lokale computer

Afjanus-ai 30. januar 202530. januar 2025

DeepSeek R1, en ny open source AI-sprogmodel udviklet af det kinesiske AI-firma DeepSeek, er populær lige nu. Nogle brugere hævder, at den kan sammenlignes med eller endda er stærkere end OpenAI's o1 med hensyn til udledningsmuligheder. I øjeblikket er DeepSeek gratis, hvilket er en god nyhed for brugerne, men det rejser også nogle spørgsmål. Hvordan...

Ikke kategoriseret

deepseek billedgenerator

Afwd.gstar@gmail.com 28. januar 202528. januar 2025

DeepSeek Billedgenerator: Et revolutionerende gennembrud inden for AI-drevet billedskabelse Introduktion Landskabet for kunstig intelligens har været vidne til en bemærkelsesværdig transformation med fremkomsten af DeepSeeks banebrydende billedskabelsesteknologi. DeepSeek Image Generator har, især gennem sin Janus Pro-serie, etableret sig som en banebrydende løsning inden for den konkurrenceprægede AI-drevne billedskabelse. Denne...

Jeg destillerede DeepSeek-R1's viden om ræsonneringsevne til Qwen2, og resultaterne var virkelig eksplosive!!!

Ⅰ. Hvad er vidensdestillation?

II. centrale begreber

2.1 Design af skabelon

2.2 Ræsonnementets bane: "Tænkekæden" i modellens løsning

2.3 Afvisning af prøveudtagning: Filtrering af gode data fra "trial and error

Generering af destillerede data

Datakilder:

Proces til generering af destillationsdata:

Ⅳ.Destillationsproces

Lærer- og elevroller:

Træningstrin:

Ⅴ. Eksempel på demonstration

Ⅵ. Sammenfatning

Janus Pro DeepSeek: Dyk ned i teknologien og anvendelsen af den nyeste AI-model | Udforsk den innovative kraft bag den

Detaljer om DeepSeek V3-papiret: Sådan omgår du CUDA-monopolet!

NVIDIA og Microsoft er de første til at integrere Deepseek, mens OpenAI er i fuld gang med at rejse 280 milliarder i ny finansiering

Markøren understøtter DeepSeek R1, og nye versioner opdaterer flere funktioner

Sådan installerer og bruger du DeepSeek R1 på din lokale computer

deepseek billedgenerator

Skriv et svar Annuller svar

Ressourcer

Produkt