{"id":686,"date":"2025-01-29T07:35:31","date_gmt":"2025-01-29T07:35:31","guid":{"rendered":"https:\/\/janusai.pro\/?p=686"},"modified":"2025-01-29T07:37:05","modified_gmt":"2025-01-29T07:37:05","slug":"i-distilled-deepseek-r1s-reasoning-ability-knowledge-into-qwen2-and-the-results-were-really-explosive","status":"publish","type":"post","link":"https:\/\/janusai.pro\/de\/i-distilled-deepseek-r1s-reasoning-ability-knowledge-into-qwen2-and-the-results-were-really-explosive\/","title":{"rendered":"Ich habe das Wissen \u00fcber die Denkf\u00e4higkeit von DeepSeek-R1 in Qwen2 destilliert, und die Ergebnisse waren wirklich explosiv!!!"},"content":{"rendered":"<div style=\"margin-top: 0px; margin-bottom: 0px;\" class=\"sharethis-inline-share-buttons\" ><\/div>\n<div id=\"ez-toc-container\" class=\"ez-toc-v2_0_72 counter-hierarchy ez-toc-counter ez-toc-grey ez-toc-container-direction\">\n<div class=\"ez-toc-title-container\">\n<p class=\"ez-toc-title\" style=\"cursor:inherit\">Inhalts\u00fcbersicht<\/p>\n<span class=\"ez-toc-title-toggle\"><a href=\"#\" class=\"ez-toc-pull-right ez-toc-btn ez-toc-btn-xs ez-toc-btn-default ez-toc-toggle\" aria-label=\"Inhaltsverzeichnis umschalten\"><span class=\"ez-toc-js-icon-con\"><span class=\"\"><span class=\"eztoc-hide\" style=\"display:none;\">Umschalten auf<\/span><span class=\"ez-toc-icon-toggle-span\"><svg style=\"fill: #999;color:#999\" xmlns=\"http:\/\/www.w3.org\/2000\/svg\" class=\"list-377408\" width=\"20px\" height=\"20px\" viewbox=\"0 0 24 24\" fill=\"none\"><path d=\"M6 6H4v2h2V6zm14 0H8v2h12V6zM4 11h2v2H4v-2zm16 0H8v2h12v-2zM4 16h2v2H4v-2zm16 0H8v2h12v-2z\" fill=\"currentColor\"><\/path><\/svg><svg style=\"fill: #999;color:#999\" class=\"arrow-unsorted-368013\" xmlns=\"http:\/\/www.w3.org\/2000\/svg\" width=\"10px\" height=\"10px\" viewbox=\"0 0 24 24\" version=\"1.2\" baseprofile=\"tiny\"><path d=\"M18.2 9.3l-6.2-6.3-6.2 6.3c-.2.2-.3.4-.3.7s.1.5.3.7c.2.2.4.3.7.3h11c.3 0 .5-.1.7-.3.2-.2.3-.5.3-.7s-.1-.5-.3-.7zM5.8 14.7l6.2 6.3 6.2-6.3c.2-.2.3-.5.3-.7s-.1-.5-.3-.7c-.2-.2-.4-.3-.7-.3h-11c-.3 0-.5.1-.7.3-.2.2-.3.5-.3.7s.1.5.3.7z\"\/><\/svg><\/span><\/span><\/span><\/a><\/span><\/div>\n<nav><ul class='ez-toc-list ez-toc-list-level-1' ><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-1\" href=\"https:\/\/janusai.pro\/de\/i-distilled-deepseek-r1s-reasoning-ability-knowledge-into-qwen2-and-the-results-were-really-explosive\/#%E2%85%A0_What_is_knowledge_distillation\" title=\"\u2160. Was ist Wissensdestillation?\">\u2160. Was ist Wissensdestillation?<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-2\" href=\"https:\/\/janusai.pro\/de\/i-distilled-deepseek-r1s-reasoning-ability-knowledge-into-qwen2-and-the-results-were-really-explosive\/#IICore_concepts\" title=\"II. Kernbegriffe\">II. Kernbegriffe<\/a><ul class='ez-toc-list-level-3' ><li class='ez-toc-heading-level-3'><a class=\"ez-toc-link ez-toc-heading-3\" href=\"https:\/\/janusai.pro\/de\/i-distilled-deepseek-r1s-reasoning-ability-knowledge-into-qwen2-and-the-results-were-really-explosive\/#21_Template_design\" title=\"2.1 Entwurf der Vorlage\">2.1 Entwurf der Vorlage<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-3'><a class=\"ez-toc-link ez-toc-heading-4\" href=\"https:\/\/janusai.pro\/de\/i-distilled-deepseek-r1s-reasoning-ability-knowledge-into-qwen2-and-the-results-were-really-explosive\/#22_Reasoning_trajectory_The_%E2%80%9Cthinking_chain%E2%80%9D_of_the_models_solution\" title=\"2.2 Der Denkweg: Die &quot;Denkkette&quot; der L\u00f6sung des Modells\">2.2 Der Denkweg: Die \"Denkkette\" der L\u00f6sung des Modells<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-3'><a class=\"ez-toc-link ez-toc-heading-5\" href=\"https:\/\/janusai.pro\/de\/i-distilled-deepseek-r1s-reasoning-ability-knowledge-into-qwen2-and-the-results-were-really-explosive\/#23_Rejection_sampling_Filtering_good_data_from_%E2%80%9Ctrial_and_error\" title=\"2.3 Zur\u00fcckweisung von Stichproben: Herausfiltern guter Daten aus &quot;Versuch und Irrtum\">2.3 Zur\u00fcckweisung von Stichproben: Herausfiltern guter Daten aus \"Versuch und Irrtum<\/a><\/li><\/ul><\/li><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-6\" href=\"https:\/\/janusai.pro\/de\/i-distilled-deepseek-r1s-reasoning-ability-knowledge-into-qwen2-and-the-results-were-really-explosive\/#%E2%85%A2Generation_of_distilled_data\" title=\"\u2162.Erzeugung von destillierten Daten\">\u2162.Erzeugung von destillierten Daten<\/a><ul class='ez-toc-list-level-3' ><li class='ez-toc-heading-level-3'><a class=\"ez-toc-link ez-toc-heading-7\" href=\"https:\/\/janusai.pro\/de\/i-distilled-deepseek-r1s-reasoning-ability-knowledge-into-qwen2-and-the-results-were-really-explosive\/#Data_sources\" title=\"Datenquellen:\">Datenquellen:<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-3'><a class=\"ez-toc-link ez-toc-heading-8\" href=\"https:\/\/janusai.pro\/de\/i-distilled-deepseek-r1s-reasoning-ability-knowledge-into-qwen2-and-the-results-were-really-explosive\/#Distillation_data_generation_process\" title=\"Prozess der Destillationsdatenerzeugung:\">Prozess der Destillationsdatenerzeugung:<\/a><\/li><\/ul><\/li><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-9\" href=\"https:\/\/janusai.pro\/de\/i-distilled-deepseek-r1s-reasoning-ability-knowledge-into-qwen2-and-the-results-were-really-explosive\/#%E2%85%A3Distillation_process\" title=\"\u2163.Destillationsverfahren\">\u2163.Destillationsverfahren<\/a><ul class='ez-toc-list-level-3' ><li class='ez-toc-heading-level-3'><a class=\"ez-toc-link ez-toc-heading-10\" href=\"https:\/\/janusai.pro\/de\/i-distilled-deepseek-r1s-reasoning-ability-knowledge-into-qwen2-and-the-results-were-really-explosive\/#Teacher_and_student_roles\" title=\"Die Rollen von Lehrern und Sch\u00fclern:\">Die Rollen von Lehrern und Sch\u00fclern:<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-3'><a class=\"ez-toc-link ez-toc-heading-11\" href=\"https:\/\/janusai.pro\/de\/i-distilled-deepseek-r1s-reasoning-ability-knowledge-into-qwen2-and-the-results-were-really-explosive\/#Training_steps\" title=\"Ausbildungsschritte:\">Ausbildungsschritte:<\/a><\/li><\/ul><\/li><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-12\" href=\"https:\/\/janusai.pro\/de\/i-distilled-deepseek-r1s-reasoning-ability-knowledge-into-qwen2-and-the-results-were-really-explosive\/#%E2%85%A4_Example_demonstration\" title=\"\u2164. Beispiel Demonstration\">\u2164. Beispiel Demonstration<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-13\" href=\"https:\/\/janusai.pro\/de\/i-distilled-deepseek-r1s-reasoning-ability-knowledge-into-qwen2-and-the-results-were-really-explosive\/#%E2%85%A5_Summary\" title=\"\u2165. Zusammenfassung\">\u2165. Zusammenfassung<\/a><\/li><\/ul><\/nav><\/div>\n<h2 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"%E2%85%A0_What_is_knowledge_distillation\"><\/span><strong>\u2160. <\/strong>Was ist Wissensdestillation?<span class=\"ez-toc-section-end\"><\/span><\/h2>\n\n\n\n<p>Die Wissensdestillation ist eine Modellkomprimierungstechnik, die dazu dient, Wissen von einem gro\u00dfen, komplexen Modell (dem Lehrermodell) auf ein kleines Modell (das Sch\u00fclermodell) zu \u00fcbertragen. <\/p>\n\n\n\n<p>Das Grundprinzip besteht darin, dass das Lehrermodell dem Sch\u00fclermodell durch Vorhersage von Ergebnissen (z. B. Wahrscheinlichkeitsverteilungen oder Inferenzprozesse) etwas beibringt und das Sch\u00fclermodell seine Leistung durch Lernen aus diesen Vorhersagen verbessert. <\/p>\n\n\n\n<p>Diese Methode eignet sich besonders f\u00fcr Ger\u00e4te mit eingeschr\u00e4nkten Ressourcen wie Mobiltelefone oder eingebettete Ger\u00e4te.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"IICore_concepts\"><\/span>II. Kernbegriffe<span class=\"ez-toc-section-end\"><\/span><\/h2>\n\n\n\n<h3 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"21_Template_design\"><\/span>2.1 Entwurf der Vorlage<span class=\"ez-toc-section-end\"><\/span><\/h3>\n\n\n\n<ul class=\"wp-block-list\">\n<li>Vorlage: Ein strukturiertes Format, das zur Standardisierung der Modellausgabe verwendet wird. Zum Beispiel\n<ul class=\"wp-block-list\">\n<li>: Markiert den Beginn des Argumentationsprozesses.<\/li>\n\n\n\n<li>: Markiert das Ende des Argumentationsprozesses.<\/li>\n\n\n\n<li>: Markiert den Anfang der endg\u00fcltigen Antwort.<\/li>\n\n\n\n<li>: Markiert das Ende der endg\u00fcltigen Antwort.<\/li>\n<\/ul>\n<\/li>\n\n\n\n<li>Funktion:\n<ul class=\"wp-block-list\">\n<li>Klarheit: Wie die \"Aufforderungsw\u00f6rter\" in einer L\u00fcckentext-Frage sagt sie dem Modell: \"Der Denkprozess beginnt hier und die Antwort dort\".<\/li>\n\n\n\n<li>Konsistenz: Es wird sichergestellt, dass alle Ausgaben der gleichen Struktur folgen, was die sp\u00e4tere Verarbeitung und Analyse erleichtert.<\/li>\n\n\n\n<li>Lesbarkeit: Menschen k\u00f6nnen leicht zwischen dem Argumentationsprozess und der Antwort unterscheiden, was die Benutzererfahrung verbessert.<\/li>\n<\/ul>\n<\/li>\n<\/ul>\n\n\n\n<h3 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"22_Reasoning_trajectory_The_%E2%80%9Cthinking_chain%E2%80%9D_of_the_models_solution\"><\/span>2.2 Der Denkweg: Die \"Denkkette\" der L\u00f6sung des Modells<span class=\"ez-toc-section-end\"><\/span><\/h3>\n\n\n\n<ul class=\"wp-block-list\">\n<li>Trajektorie des Denkens: Die detaillierten Schritte, die das Modell bei der L\u00f6sung eines Problems ausf\u00fchrt, zeigen die logische Kette des Modells.<\/li>\n\n\n\n<li>Beispiel:<\/li>\n<\/ul>\n\n\n\n<figure class=\"wp-block-image\"><img loading=\"lazy\" decoding=\"async\" width=\"759\" height=\"290\" src=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/01\/b8eff676-f9d7-436c-9ee7-1e423242825d.png\" alt=\"\" class=\"wp-image-689\" srcset=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/01\/b8eff676-f9d7-436c-9ee7-1e423242825d.png 759w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/01\/b8eff676-f9d7-436c-9ee7-1e423242825d-300x115.png 300w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/01\/b8eff676-f9d7-436c-9ee7-1e423242825d-18x7.png 18w\" sizes=\"auto, (max-width: 759px) 100vw, 759px\" \/><\/figure>\n\n\n\n<h3 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"23_Rejection_sampling_Filtering_good_data_from_%E2%80%9Ctrial_and_error\"><\/span>2.3 Zur\u00fcckweisung von Stichproben: Herausfiltern guter Daten aus \"Versuch und Irrtum<span class=\"ez-toc-section-end\"><\/span><\/h3>\n\n\n\n<ul class=\"wp-block-list\">\n<li>Ablehnende Stichproben: Generieren Sie mehrere Kandidatenantworten und behalten Sie die guten Antworten, \u00e4hnlich wie beim Schreiben eines Entwurfs und dem anschlie\u00dfenden Kopieren der richtigen Antwort in einer Pr\u00fcfung.<\/li>\n<\/ul>\n\n\n\n<h2 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"%E2%85%A2Generation_of_distilled_data\"><\/span>\u2162.Erzeugung von destillierten Daten<span class=\"ez-toc-section-end\"><\/span><\/h2>\n\n\n\n<p>Der erste Schritt bei der Wissensdestillation besteht darin, hochwertige \"Lerndaten\" zu erzeugen, aus denen kleine Modelle lernen k\u00f6nnen.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Data_sources\"><\/span><strong>Datenquellen<\/strong>:<span class=\"ez-toc-section-end\"><\/span><\/h3>\n\n\n\n<ul class=\"wp-block-list\">\n<li>80% aus den Argumentationsdaten, die von <a href=\"https:\/\/huggingface.co\/deepseek-ai\/DeepSeek-R1\" target=\"_blank\" rel=\"noreferrer noopener nofollow\">DeepSeek-R1<\/a><\/li>\n\n\n\n<li>20% aus den allgemeinen Aufgabendaten von DeepSeek-V3.<\/li>\n<\/ul>\n\n\n\n<h3 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Distillation_data_generation_process\"><\/span><strong>Verfahren zur Erzeugung von Destillationsdaten<\/strong>:<span class=\"ez-toc-section-end\"><\/span><\/h3>\n\n\n\n<ul class=\"wp-block-list\">\n<li><strong>Regelm\u00e4\u00dfige Filterung<\/strong>: pr\u00fcft automatisch die Korrektheit der Antwort (z.B. ob die mathematische Antwort mit der Formel \u00fcbereinstimmt).<\/li>\n\n\n\n<li><strong>\u00dcberpr\u00fcfung der Lesbarkeit<\/strong>: eliminiert gemischte Sprachen (z.B. Chinesisch und Englisch gemischt) oder lange Abs\u00e4tze.<\/li>\n\n\n\n<li><strong>Vorlagengef\u00fchrte Generierung<\/strong>: erfordert, dass DeepSeek-R1 Inferenz-Trajektorien entsprechend der Vorlage ausgibt.<\/li>\n\n\n\n<li><strong>Filterung von R\u00fcckweisungsproben<\/strong>:<\/li>\n\n\n\n<li><strong>Integration von Daten<\/strong>Es wurden schlie\u00dflich 800.000 qualitativ hochwertige Stichproben erzeugt, darunter etwa 600.000 Inferenzdaten und etwa 200.000 allgemeine Daten.<\/li>\n<\/ul>\n\n\n\n<h2 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"%E2%85%A3Distillation_process\"><\/span>\u2163.Destillationsverfahren<span class=\"ez-toc-section-end\"><\/span><\/h2>\n\n\n\n<h3 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Teacher_and_student_roles\"><\/span>Die Rollen von Lehrern und Sch\u00fclern:<span class=\"ez-toc-section-end\"><\/span><\/h3>\n\n\n\n<ul class=\"wp-block-list\">\n<li>DeepSeek-R1 als Lehrermodell;<\/li>\n\n\n\n<li>Modelle der Qwen-Serie als Sch\u00fclermodell.<\/li>\n<\/ul>\n\n\n\n<h3 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Training_steps\"><\/span>Ausbildungsschritte:<span class=\"ez-toc-section-end\"><\/span><\/h3>\n\n\n\n<p>Erstens, die Dateneingabe: Sie m\u00fcssen den Frageteil der 800.000 Stichproben in das Qwen-Modell eingeben und es auffordern, eine vollst\u00e4ndige Inferenzkurve (Denkprozess + Antwort) gem\u00e4\u00df der Vorlage zu erstellen. Dies ist ein sehr wichtiger Schritt<\/p>\n\n\n\n<p>Als N\u00e4chstes folgt die Verlustberechnung: Vergleichen Sie die vom Sch\u00fclermodell erzeugte Ausgabe mit der Inferenzkurve des Lehrermodells und gleichen Sie die Textabfolge durch \u00fcberwachte Feinabstimmung (SFT) ab. Wenn Sie sich nicht sicher sind, was SFT ist, suchen Sie nach diesem Stichwort, um mehr zu erfahren<\/p>\n\n\n\n<p>Vollst\u00e4ndige Aktualisierung der Parameter f\u00fcr das gr\u00f6\u00dfere Modell des Sch\u00fclers: Optimieren Sie die Parameter des Qwen-Modells durch Backpropagation, um die Ausgabe des Lehrermodells zu approximieren.<\/p>\n\n\n\n<p>Durch die mehrfache Wiederholung dieses Ausbildungsprozesses wird sichergestellt, dass das Wissen ausreichend \u00fcbertragen wird. Damit wird das urspr\u00fcngliche Ausbildungsziel erreicht. Wir werden Ihnen dies anhand eines Beispiels demonstrieren und hoffen, dass Sie es verstehen werden<\/p>\n\n\n\n<h2 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"%E2%85%A4_Example_demonstration\"><\/span>\u2164. Beispiel Demonstration<span class=\"ez-toc-section-end\"><\/span><\/h2>\n\n\n\n<p>Der Artikel demonstriert den Destillationseffekt anhand einer speziellen Gleichungsl\u00f6sungsaufgabe (Gleichung l\u00f6sen):<\/p>\n\n\n\n<ul class=\"wp-block-list\">\n<li>Standardausgabe des Lehrermodells:<\/li>\n<\/ul>\n\n\n\n<figure class=\"wp-block-image\"><img loading=\"lazy\" decoding=\"async\" width=\"771\" height=\"328\" src=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/01\/3a53b6a8-36d2-4251-ab0f-8646d7646352.png\" alt=\"\" class=\"wp-image-690\" srcset=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/01\/3a53b6a8-36d2-4251-ab0f-8646d7646352.png 771w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/01\/3a53b6a8-36d2-4251-ab0f-8646d7646352-300x128.png 300w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/01\/3a53b6a8-36d2-4251-ab0f-8646d7646352-768x327.png 768w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/01\/3a53b6a8-36d2-4251-ab0f-8646d7646352-18x8.png 18w\" sizes=\"auto, (max-width: 771px) 100vw, 771px\" \/><\/figure>\n\n\n\n<ul class=\"wp-block-list\">\n<li>Qwen-7B-Ausgang vor der Destillation:<\/li>\n<\/ul>\n\n\n\n<figure class=\"wp-block-image\"><img loading=\"lazy\" decoding=\"async\" width=\"766\" height=\"178\" src=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/01\/51c44a52-01a0-474a-8d47-5483613286fb.png\" alt=\"\" class=\"wp-image-688\" srcset=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/01\/51c44a52-01a0-474a-8d47-5483613286fb.png 766w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/01\/51c44a52-01a0-474a-8d47-5483613286fb-300x70.png 300w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/01\/51c44a52-01a0-474a-8d47-5483613286fb-18x4.png 18w\" sizes=\"auto, (max-width: 766px) 100vw, 766px\" \/><\/figure>\n\n\n\n<ul class=\"wp-block-list\">\n<li>Qwen-7B-Ausgang nach der Destillation:<\/li>\n<\/ul>\n\n\n\n<figure class=\"wp-block-image\"><img loading=\"lazy\" decoding=\"async\" width=\"759\" height=\"260\" src=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/01\/61c7fb80-d903-4339-971c-9613b5ac199c.png\" alt=\"\" class=\"wp-image-687\" srcset=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/01\/61c7fb80-d903-4339-971c-9613b5ac199c.png 759w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/01\/61c7fb80-d903-4339-971c-9613b5ac199c-300x103.png 300w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/01\/61c7fb80-d903-4339-971c-9613b5ac199c-18x6.png 18w\" sizes=\"auto, (max-width: 759px) 100vw, 759px\" \/><\/figure>\n\n\n\n<ul class=\"wp-block-list\">\n<li>Optimierte L\u00f6sung: Es wird ein strukturierter Schlussfolgerungsprozess generiert, und die Antwort ist dieselbe wie das Lehrermodell.<\/li>\n<\/ul>\n\n\n\n<h2 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"%E2%85%A5_Summary\"><\/span>\u2165. Zusammenfassung<span class=\"ez-toc-section-end\"><\/span><\/h2>\n\n\n\n<p>Durch Wissensdestillation wird die Inferenzf\u00e4higkeit von DeepSeek-R1 effizient auf die Qwen-Serie kleiner Modelle \u00fcbertragen. Dieser Prozess konzentriert sich auf eine schablonenhafte Ausgabe und ein Rejection Sampling. Durch strukturierte Datengenerierung und verfeinertes Training k\u00f6nnen kleine Modelle auch komplexe Inferenzaufgaben in ressourcenbeschr\u00e4nkten Szenarien durchf\u00fchren. Diese Technologie stellt eine wichtige Referenz f\u00fcr den leichtgewichtigen Einsatz von KI-Modellen dar.<\/p>","protected":false},"excerpt":{"rendered":"<p>\u2160. Was ist Wissensdestillation? Wissensdestillation ist eine Modellkomprimierungstechnik, die dazu dient, Wissen von einem gro\u00dfen, komplexen Modell (dem Lehrermodell) auf ein kleines Modell (das Sch\u00fclermodell) zu \u00fcbertragen. Das Kernprinzip besteht darin, dass das Lehrermodell das Sch\u00fclermodell lehrt, indem es Ergebnisse vorhersagt (z. B. Wahrscheinlichkeitsverteilungen oder Inferenzprozesse), und das...<\/p>","protected":false},"author":2,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_kadence_starter_templates_imported_post":false,"_kad_post_transparent":"","_kad_post_title":"","_kad_post_layout":"","_kad_post_sidebar_id":"","_kad_post_content_style":"","_kad_post_vertical_padding":"","_kad_post_feature":"","_kad_post_feature_position":"","_kad_post_header":false,"_kad_post_footer":false,"footnotes":""},"categories":[1],"tags":[],"class_list":["post-686","post","type-post","status-publish","format-standard","hentry","category-uncategorized"],"_links":{"self":[{"href":"https:\/\/janusai.pro\/de\/wp-json\/wp\/v2\/posts\/686","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/janusai.pro\/de\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/janusai.pro\/de\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/janusai.pro\/de\/wp-json\/wp\/v2\/users\/2"}],"replies":[{"embeddable":true,"href":"https:\/\/janusai.pro\/de\/wp-json\/wp\/v2\/comments?post=686"}],"version-history":[{"count":2,"href":"https:\/\/janusai.pro\/de\/wp-json\/wp\/v2\/posts\/686\/revisions"}],"predecessor-version":[{"id":692,"href":"https:\/\/janusai.pro\/de\/wp-json\/wp\/v2\/posts\/686\/revisions\/692"}],"wp:attachment":[{"href":"https:\/\/janusai.pro\/de\/wp-json\/wp\/v2\/media?parent=686"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/janusai.pro\/de\/wp-json\/wp\/v2\/categories?post=686"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/janusai.pro\/de\/wp-json\/wp\/v2\/tags?post=686"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}