{"id":686,"date":"2025-01-29T07:35:31","date_gmt":"2025-01-29T07:35:31","guid":{"rendered":"https:\/\/janusai.pro\/?p=686"},"modified":"2025-01-29T07:37:05","modified_gmt":"2025-01-29T07:37:05","slug":"i-distilled-deepseek-r1s-reasoning-ability-knowledge-into-qwen2-and-the-results-were-really-explosive","status":"publish","type":"post","link":"https:\/\/janusai.pro\/pt\/i-distilled-deepseek-r1s-reasoning-ability-knowledge-into-qwen2-and-the-results-were-really-explosive\/","title":{"rendered":"Destilei o conhecimento da capacidade de racioc\u00ednio do DeepSeek-R1 para o Qwen2, e os resultados foram realmente explosivos!!!"},"content":{"rendered":"<div style=\"margin-top: 0px; margin-bottom: 0px;\" class=\"sharethis-inline-share-buttons\" ><\/div>\n<div id=\"ez-toc-container\" class=\"ez-toc-v2_0_72 counter-hierarchy ez-toc-counter ez-toc-grey ez-toc-container-direction\">\n<div class=\"ez-toc-title-container\">\n<p class=\"ez-toc-title\" style=\"cursor:inherit\">\u00cdndice<\/p>\n<span class=\"ez-toc-title-toggle\"><a href=\"#\" class=\"ez-toc-pull-right ez-toc-btn ez-toc-btn-xs ez-toc-btn-default ez-toc-toggle\" aria-label=\"Alternar tabela de conte\u00fado\"><span class=\"ez-toc-js-icon-con\"><span class=\"\"><span class=\"eztoc-hide\" style=\"display:none;\">Alternar<\/span><span class=\"ez-toc-icon-toggle-span\"><svg style=\"fill: #999;color:#999\" xmlns=\"http:\/\/www.w3.org\/2000\/svg\" class=\"list-377408\" width=\"20px\" height=\"20px\" viewbox=\"0 0 24 24\" fill=\"none\"><path d=\"M6 6H4v2h2V6zm14 0H8v2h12V6zM4 11h2v2H4v-2zm16 0H8v2h12v-2zM4 16h2v2H4v-2zm16 0H8v2h12v-2z\" fill=\"currentColor\"><\/path><\/svg><svg style=\"fill: #999;color:#999\" class=\"arrow-unsorted-368013\" xmlns=\"http:\/\/www.w3.org\/2000\/svg\" width=\"10px\" height=\"10px\" viewbox=\"0 0 24 24\" version=\"1.2\" baseprofile=\"tiny\"><path d=\"M18.2 9.3l-6.2-6.3-6.2 6.3c-.2.2-.3.4-.3.7s.1.5.3.7c.2.2.4.3.7.3h11c.3 0 .5-.1.7-.3.2-.2.3-.5.3-.7s-.1-.5-.3-.7zM5.8 14.7l6.2 6.3 6.2-6.3c.2-.2.3-.5.3-.7s-.1-.5-.3-.7c-.2-.2-.4-.3-.7-.3h-11c-.3 0-.5.1-.7.3-.2.2-.3.5-.3.7s.1.5.3.7z\"\/><\/svg><\/span><\/span><\/span><\/a><\/span><\/div>\n<nav><ul class='ez-toc-list ez-toc-list-level-1' ><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-1\" href=\"https:\/\/janusai.pro\/pt\/i-distilled-deepseek-r1s-reasoning-ability-knowledge-into-qwen2-and-the-results-were-really-explosive\/#%E2%85%A0_What_is_knowledge_distillation\" title=\"\u2160. O que \u00e9 destila\u00e7\u00e3o de conhecimento?\">\u2160. O que \u00e9 destila\u00e7\u00e3o de conhecimento?<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-2\" href=\"https:\/\/janusai.pro\/pt\/i-distilled-deepseek-r1s-reasoning-ability-knowledge-into-qwen2-and-the-results-were-really-explosive\/#IICore_concepts\" title=\"II. Conceitos b\u00e1sicos\">II. Conceitos b\u00e1sicos<\/a><ul class='ez-toc-list-level-3' ><li class='ez-toc-heading-level-3'><a class=\"ez-toc-link ez-toc-heading-3\" href=\"https:\/\/janusai.pro\/pt\/i-distilled-deepseek-r1s-reasoning-ability-knowledge-into-qwen2-and-the-results-were-really-explosive\/#21_Template_design\" title=\"2.1 Design do modelo\">2.1 Design do modelo<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-3'><a class=\"ez-toc-link ez-toc-heading-4\" href=\"https:\/\/janusai.pro\/pt\/i-distilled-deepseek-r1s-reasoning-ability-knowledge-into-qwen2-and-the-results-were-really-explosive\/#22_Reasoning_trajectory_The_%E2%80%9Cthinking_chain%E2%80%9D_of_the_models_solution\" title=\"2.2 Trajet\u00f3ria de racioc\u00ednio: A &quot;cadeia de racioc\u00ednio&quot; da solu\u00e7\u00e3o do modelo\">2.2 Trajet\u00f3ria de racioc\u00ednio: A \"cadeia de racioc\u00ednio\" da solu\u00e7\u00e3o do modelo<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-3'><a class=\"ez-toc-link ez-toc-heading-5\" href=\"https:\/\/janusai.pro\/pt\/i-distilled-deepseek-r1s-reasoning-ability-knowledge-into-qwen2-and-the-results-were-really-explosive\/#23_Rejection_sampling_Filtering_good_data_from_%E2%80%9Ctrial_and_error\" title=\"2.3 Amostragem de rejei\u00e7\u00e3o: Filtragem de bons dados de &quot;tentativa e erro\">2.3 Amostragem de rejei\u00e7\u00e3o: Filtragem de bons dados de \"tentativa e erro<\/a><\/li><\/ul><\/li><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-6\" href=\"https:\/\/janusai.pro\/pt\/i-distilled-deepseek-r1s-reasoning-ability-knowledge-into-qwen2-and-the-results-were-really-explosive\/#%E2%85%A2Generation_of_distilled_data\" title=\"Gera\u00e7\u00e3o de dados destilados\">Gera\u00e7\u00e3o de dados destilados<\/a><ul class='ez-toc-list-level-3' ><li class='ez-toc-heading-level-3'><a class=\"ez-toc-link ez-toc-heading-7\" href=\"https:\/\/janusai.pro\/pt\/i-distilled-deepseek-r1s-reasoning-ability-knowledge-into-qwen2-and-the-results-were-really-explosive\/#Data_sources\" title=\"Fontes de dados:\">Fontes de dados:<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-3'><a class=\"ez-toc-link ez-toc-heading-8\" href=\"https:\/\/janusai.pro\/pt\/i-distilled-deepseek-r1s-reasoning-ability-knowledge-into-qwen2-and-the-results-were-really-explosive\/#Distillation_data_generation_process\" title=\"Processo de gera\u00e7\u00e3o de dados de destila\u00e7\u00e3o:\">Processo de gera\u00e7\u00e3o de dados de destila\u00e7\u00e3o:<\/a><\/li><\/ul><\/li><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-9\" href=\"https:\/\/janusai.pro\/pt\/i-distilled-deepseek-r1s-reasoning-ability-knowledge-into-qwen2-and-the-results-were-really-explosive\/#%E2%85%A3Distillation_process\" title=\"\u2163. Processo de destila\u00e7\u00e3o\">\u2163. Processo de destila\u00e7\u00e3o<\/a><ul class='ez-toc-list-level-3' ><li class='ez-toc-heading-level-3'><a class=\"ez-toc-link ez-toc-heading-10\" href=\"https:\/\/janusai.pro\/pt\/i-distilled-deepseek-r1s-reasoning-ability-knowledge-into-qwen2-and-the-results-were-really-explosive\/#Teacher_and_student_roles\" title=\"Fun\u00e7\u00f5es do professor e do aluno:\">Fun\u00e7\u00f5es do professor e do aluno:<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-3'><a class=\"ez-toc-link ez-toc-heading-11\" href=\"https:\/\/janusai.pro\/pt\/i-distilled-deepseek-r1s-reasoning-ability-knowledge-into-qwen2-and-the-results-were-really-explosive\/#Training_steps\" title=\"Etapas do treinamento:\">Etapas do treinamento:<\/a><\/li><\/ul><\/li><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-12\" href=\"https:\/\/janusai.pro\/pt\/i-distilled-deepseek-r1s-reasoning-ability-knowledge-into-qwen2-and-the-results-were-really-explosive\/#%E2%85%A4_Example_demonstration\" title=\"\u2164. Exemplo de demonstra\u00e7\u00e3o\">\u2164. Exemplo de demonstra\u00e7\u00e3o<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-13\" href=\"https:\/\/janusai.pro\/pt\/i-distilled-deepseek-r1s-reasoning-ability-knowledge-into-qwen2-and-the-results-were-really-explosive\/#%E2%85%A5_Summary\" title=\"\u2165. Resumo\">\u2165. Resumo<\/a><\/li><\/ul><\/nav><\/div>\n<h2 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"%E2%85%A0_What_is_knowledge_distillation\"><\/span><strong>\u2160. <\/strong>O que \u00e9 destila\u00e7\u00e3o de conhecimento?<span class=\"ez-toc-section-end\"><\/span><\/h2>\n\n\n\n<p>A destila\u00e7\u00e3o do conhecimento \u00e9 uma t\u00e9cnica de compress\u00e3o de modelos usada para transferir conhecimento de um modelo grande e complexo (o modelo do professor) para um modelo pequeno (o modelo do aluno). <\/p>\n\n\n\n<p>O princ\u00edpio fundamental \u00e9 que o modelo do professor ensina o modelo do aluno prevendo resultados (como distribui\u00e7\u00f5es de probabilidade ou processos de infer\u00eancia), e o modelo do aluno melhora seu desempenho aprendendo com essas previs\u00f5es. <\/p>\n\n\n\n<p>Esse m\u00e9todo \u00e9 particularmente adequado para dispositivos com recursos limitados, como telefones celulares ou dispositivos incorporados.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"IICore_concepts\"><\/span>II. Conceitos b\u00e1sicos<span class=\"ez-toc-section-end\"><\/span><\/h2>\n\n\n\n<h3 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"21_Template_design\"><\/span>2.1 Design do modelo<span class=\"ez-toc-section-end\"><\/span><\/h3>\n\n\n\n<ul class=\"wp-block-list\">\n<li>Modelo: Um formato estruturado usado para padronizar a sa\u00edda do modelo. Por exemplo\n<ul class=\"wp-block-list\">\n<li>: Marca o in\u00edcio do processo de racioc\u00ednio.<\/li>\n\n\n\n<li>: Marca o fim do processo de racioc\u00ednio.<\/li>\n\n\n\n<li>: Marca o in\u00edcio da resposta final.<\/li>\n\n\n\n<li>: Marca o fim da resposta final.<\/li>\n<\/ul>\n<\/li>\n\n\n\n<li>Fun\u00e7\u00e3o:\n<ul class=\"wp-block-list\">\n<li>Clareza: Como as \"palavras-chave\" em uma pergunta de preenchimento de lacunas, ela informa ao modelo que \"o processo de racioc\u00ednio vai at\u00e9 aqui e a resposta vai at\u00e9 ali\".<\/li>\n\n\n\n<li>Consist\u00eancia: Garante que todos os resultados sigam a mesma estrutura, facilitando o processamento e a an\u00e1lise subsequentes.<\/li>\n\n\n\n<li>Legibilidade: os seres humanos podem distinguir facilmente entre o processo de racioc\u00ednio e a resposta, melhorando a experi\u00eancia do usu\u00e1rio.<\/li>\n<\/ul>\n<\/li>\n<\/ul>\n\n\n\n<h3 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"22_Reasoning_trajectory_The_%E2%80%9Cthinking_chain%E2%80%9D_of_the_models_solution\"><\/span>2.2 Trajet\u00f3ria de racioc\u00ednio: A \"cadeia de racioc\u00ednio\" da solu\u00e7\u00e3o do modelo<span class=\"ez-toc-section-end\"><\/span><\/h3>\n\n\n\n<ul class=\"wp-block-list\">\n<li>Trajet\u00f3ria de racioc\u00ednio: As etapas detalhadas geradas pelo modelo ao resolver um problema mostram a cadeia l\u00f3gica do modelo.<\/li>\n\n\n\n<li>Exemplo:<\/li>\n<\/ul>\n\n\n\n<figure class=\"wp-block-image\"><img loading=\"lazy\" decoding=\"async\" width=\"759\" height=\"290\" src=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/01\/b8eff676-f9d7-436c-9ee7-1e423242825d.png\" alt=\"\" class=\"wp-image-689\" srcset=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/01\/b8eff676-f9d7-436c-9ee7-1e423242825d.png 759w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/01\/b8eff676-f9d7-436c-9ee7-1e423242825d-300x115.png 300w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/01\/b8eff676-f9d7-436c-9ee7-1e423242825d-18x7.png 18w\" sizes=\"auto, (max-width: 759px) 100vw, 759px\" \/><\/figure>\n\n\n\n<h3 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"23_Rejection_sampling_Filtering_good_data_from_%E2%80%9Ctrial_and_error\"><\/span>2.3 Amostragem de rejei\u00e7\u00e3o: Filtragem de bons dados de \"tentativa e erro<span class=\"ez-toc-section-end\"><\/span><\/h3>\n\n\n\n<ul class=\"wp-block-list\">\n<li>Amostragem de rejei\u00e7\u00e3o: Gerar v\u00e1rias respostas de candidatos e reter as boas, semelhante a escrever um rascunho e depois copiar a resposta correta em um exame.<\/li>\n<\/ul>\n\n\n\n<h2 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"%E2%85%A2Generation_of_distilled_data\"><\/span>Gera\u00e7\u00e3o de dados destilados<span class=\"ez-toc-section-end\"><\/span><\/h2>\n\n\n\n<p>A primeira etapa da destila\u00e7\u00e3o do conhecimento \u00e9 gerar \"dados de ensino\" de alta qualidade para que os modelos pequenos possam aprender com eles.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Data_sources\"><\/span><strong>Fontes de dados<\/strong>:<span class=\"ez-toc-section-end\"><\/span><\/h3>\n\n\n\n<ul class=\"wp-block-list\">\n<li>80% a partir dos dados de racioc\u00ednio gerados por <a href=\"https:\/\/huggingface.co\/deepseek-ai\/DeepSeek-R1\" target=\"_blank\" rel=\"noreferrer noopener nofollow\">DeepSeek-R1<\/a><\/li>\n\n\n\n<li>20% dos dados da tarefa geral do DeepSeek-V3.<\/li>\n<\/ul>\n\n\n\n<h3 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Distillation_data_generation_process\"><\/span><strong>Processo de gera\u00e7\u00e3o de dados de destila\u00e7\u00e3o<\/strong>:<span class=\"ez-toc-section-end\"><\/span><\/h3>\n\n\n\n<ul class=\"wp-block-list\">\n<li><strong>Filtragem de regras<\/strong>Verifica automaticamente a exatid\u00e3o da resposta (por exemplo, se a resposta matem\u00e1tica est\u00e1 de acordo com a f\u00f3rmula).<\/li>\n\n\n\n<li><strong>Verifica\u00e7\u00e3o de legibilidade<\/strong>Elimina idiomas mistos (por exemplo, chin\u00eas e ingl\u00eas misturados) ou par\u00e1grafos longos.<\/li>\n\n\n\n<li><strong>Gera\u00e7\u00e3o guiada por modelo<\/strong>requer que o DeepSeek-R1 produza trajet\u00f3rias de infer\u00eancia de acordo com o modelo.<\/li>\n\n\n\n<li><strong>Filtragem de amostragem de rejei\u00e7\u00e3o<\/strong>:<\/li>\n\n\n\n<li><strong>Integra\u00e7\u00e3o de dados<\/strong>No final, foram geradas 800.000 amostras de alta qualidade, incluindo cerca de 600.000 dados de infer\u00eancia e cerca de 200.000 dados gerais.<\/li>\n<\/ul>\n\n\n\n<h2 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"%E2%85%A3Distillation_process\"><\/span>\u2163. Processo de destila\u00e7\u00e3o<span class=\"ez-toc-section-end\"><\/span><\/h2>\n\n\n\n<h3 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Teacher_and_student_roles\"><\/span>Fun\u00e7\u00f5es do professor e do aluno:<span class=\"ez-toc-section-end\"><\/span><\/h3>\n\n\n\n<ul class=\"wp-block-list\">\n<li>DeepSeek-R1 como modelo de professor;<\/li>\n\n\n\n<li>Modelos da s\u00e9rie Qwen como o modelo do aluno.<\/li>\n<\/ul>\n\n\n\n<h3 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Training_steps\"><\/span>Etapas do treinamento:<span class=\"ez-toc-section-end\"><\/span><\/h3>\n\n\n\n<p>Primeiro, a entrada de dados: voc\u00ea precisa inserir a parte da pergunta das 800.000 amostras no modelo Qwen e pedir que ele gere uma trajet\u00f3ria de infer\u00eancia completa (processo de pensamento + resposta) de acordo com o modelo. Essa \u00e9 uma etapa muito importante<\/p>\n\n\n\n<p>Em seguida, c\u00e1lculo de perda: compare a sa\u00edda gerada pelo modelo do aluno com a trajet\u00f3ria de infer\u00eancia do modelo do professor e alinhe a sequ\u00eancia de texto por meio do ajuste fino supervisionado (SFT). Se voc\u00ea n\u00e3o tiver certeza do que \u00e9 SFT, espero que pesquise esta palavra-chave para saber mais<\/p>\n\n\n\n<p>Concluir as atualiza\u00e7\u00f5es de par\u00e2metros para o modelo maior do aluno: Otimizar os par\u00e2metros do modelo Qwen por meio de retropropaga\u00e7\u00e3o para aproximar a sa\u00edda do modelo do professor.<\/p>\n\n\n\n<p>A repeti\u00e7\u00e3o desse processo de treinamento v\u00e1rias vezes garante que o conhecimento seja suficientemente transferido. Isso atinge o objetivo original do treinamento. Daremos um exemplo para demonstrar isso e esperamos que voc\u00ea entenda<\/p>\n\n\n\n<h2 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"%E2%85%A4_Example_demonstration\"><\/span>\u2164. Exemplo de demonstra\u00e7\u00e3o<span class=\"ez-toc-section-end\"><\/span><\/h2>\n\n\n\n<p>O artigo demonstra o efeito de destila\u00e7\u00e3o por meio de uma tarefa espec\u00edfica de resolu\u00e7\u00e3o de equa\u00e7\u00f5es (resolver equa\u00e7\u00f5es):<\/p>\n\n\n\n<ul class=\"wp-block-list\">\n<li>Sa\u00edda padr\u00e3o do modelo do professor:<\/li>\n<\/ul>\n\n\n\n<figure class=\"wp-block-image\"><img loading=\"lazy\" decoding=\"async\" width=\"771\" height=\"328\" src=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/01\/3a53b6a8-36d2-4251-ab0f-8646d7646352.png\" alt=\"\" class=\"wp-image-690\" srcset=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/01\/3a53b6a8-36d2-4251-ab0f-8646d7646352.png 771w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/01\/3a53b6a8-36d2-4251-ab0f-8646d7646352-300x128.png 300w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/01\/3a53b6a8-36d2-4251-ab0f-8646d7646352-768x327.png 768w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/01\/3a53b6a8-36d2-4251-ab0f-8646d7646352-18x8.png 18w\" sizes=\"auto, (max-width: 771px) 100vw, 771px\" \/><\/figure>\n\n\n\n<ul class=\"wp-block-list\">\n<li>Sa\u00edda do Qwen-7B antes da destila\u00e7\u00e3o:<\/li>\n<\/ul>\n\n\n\n<figure class=\"wp-block-image\"><img loading=\"lazy\" decoding=\"async\" width=\"766\" height=\"178\" src=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/01\/51c44a52-01a0-474a-8d47-5483613286fb.png\" alt=\"\" class=\"wp-image-688\" srcset=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/01\/51c44a52-01a0-474a-8d47-5483613286fb.png 766w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/01\/51c44a52-01a0-474a-8d47-5483613286fb-300x70.png 300w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/01\/51c44a52-01a0-474a-8d47-5483613286fb-18x4.png 18w\" sizes=\"auto, (max-width: 766px) 100vw, 766px\" \/><\/figure>\n\n\n\n<ul class=\"wp-block-list\">\n<li>Sa\u00edda do Qwen-7B ap\u00f3s a destila\u00e7\u00e3o:<\/li>\n<\/ul>\n\n\n\n<figure class=\"wp-block-image\"><img loading=\"lazy\" decoding=\"async\" width=\"759\" height=\"260\" src=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/01\/61c7fb80-d903-4339-971c-9613b5ac199c.png\" alt=\"\" class=\"wp-image-687\" srcset=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/01\/61c7fb80-d903-4339-971c-9613b5ac199c.png 759w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/01\/61c7fb80-d903-4339-971c-9613b5ac199c-300x103.png 300w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/01\/61c7fb80-d903-4339-971c-9613b5ac199c-18x6.png 18w\" sizes=\"auto, (max-width: 759px) 100vw, 759px\" \/><\/figure>\n\n\n\n<ul class=\"wp-block-list\">\n<li>Solu\u00e7\u00e3o otimizada: Um processo de infer\u00eancia estruturado \u00e9 gerado, e a resposta \u00e9 a mesma que o modelo do professor.<\/li>\n<\/ul>\n\n\n\n<h2 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"%E2%85%A5_Summary\"><\/span>\u2165. Resumo<span class=\"ez-toc-section-end\"><\/span><\/h2>\n\n\n\n<p>Por meio da destila\u00e7\u00e3o do conhecimento, a capacidade de infer\u00eancia do DeepSeek-R1 \u00e9 eficientemente migrada para a s\u00e9rie Qwen de modelos pequenos. Esse processo se concentra na sa\u00edda modelada e na amostragem de rejei\u00e7\u00e3o. Por meio da gera\u00e7\u00e3o de dados estruturados e do treinamento refinado, os modelos pequenos tamb\u00e9m podem executar tarefas de infer\u00eancia complexas em cen\u00e1rios com recursos limitados. Essa tecnologia fornece uma refer\u00eancia importante para a implanta\u00e7\u00e3o leve de modelos de IA.<\/p>","protected":false},"excerpt":{"rendered":"<p>\u2160. O que \u00e9 destila\u00e7\u00e3o de conhecimento? A destila\u00e7\u00e3o de conhecimento \u00e9 uma t\u00e9cnica de compress\u00e3o de modelos usada para transferir conhecimento de um modelo grande e complexo (o modelo do professor) para um modelo pequeno (o modelo do aluno). O princ\u00edpio b\u00e1sico \u00e9 que o modelo do professor ensina o modelo do aluno prevendo resultados (como distribui\u00e7\u00f5es de probabilidade ou processos de infer\u00eancia), e o modelo do aluno ensina o modelo do professor...<\/p>","protected":false},"author":2,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_kadence_starter_templates_imported_post":false,"_kad_post_transparent":"","_kad_post_title":"","_kad_post_layout":"","_kad_post_sidebar_id":"","_kad_post_content_style":"","_kad_post_vertical_padding":"","_kad_post_feature":"","_kad_post_feature_position":"","_kad_post_header":false,"_kad_post_footer":false,"footnotes":""},"categories":[1],"tags":[],"class_list":["post-686","post","type-post","status-publish","format-standard","hentry","category-uncategorized"],"_links":{"self":[{"href":"https:\/\/janusai.pro\/pt\/wp-json\/wp\/v2\/posts\/686","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/janusai.pro\/pt\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/janusai.pro\/pt\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/janusai.pro\/pt\/wp-json\/wp\/v2\/users\/2"}],"replies":[{"embeddable":true,"href":"https:\/\/janusai.pro\/pt\/wp-json\/wp\/v2\/comments?post=686"}],"version-history":[{"count":2,"href":"https:\/\/janusai.pro\/pt\/wp-json\/wp\/v2\/posts\/686\/revisions"}],"predecessor-version":[{"id":692,"href":"https:\/\/janusai.pro\/pt\/wp-json\/wp\/v2\/posts\/686\/revisions\/692"}],"wp:attachment":[{"href":"https:\/\/janusai.pro\/pt\/wp-json\/wp\/v2\/media?parent=686"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/janusai.pro\/pt\/wp-json\/wp\/v2\/categories?post=686"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/janusai.pro\/pt\/wp-json\/wp\/v2\/tags?post=686"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}