Ⅰ. O que é destilação de conhecimento?

A destilação do conhecimento é uma técnica de compressão de modelos usada para transferir conhecimento de um modelo grande e complexo (o modelo do professor) para um modelo pequeno (o modelo do aluno).

O princípio fundamental é que o modelo do professor ensina o modelo do aluno prevendo resultados (como distribuições de probabilidade ou processos de inferência), e o modelo do aluno melhora seu desempenho aprendendo com essas previsões.

Esse método é particularmente adequado para dispositivos com recursos limitados, como telefones celulares ou dispositivos incorporados.

II. Conceitos básicos

2.1 Design do modelo

  • Modelo: Um formato estruturado usado para padronizar a saída do modelo. Por exemplo
    • : Marca o início do processo de raciocínio.
    • : Marca o fim do processo de raciocínio.
    • : Marca o início da resposta final.
    • : Marca o fim da resposta final.
  • Função:
    • Clareza: Como as "palavras-chave" em uma pergunta de preenchimento de lacunas, ela informa ao modelo que "o processo de raciocínio vai até aqui e a resposta vai até ali".
    • Consistência: Garante que todos os resultados sigam a mesma estrutura, facilitando o processamento e a análise subsequentes.
    • Legibilidade: os seres humanos podem distinguir facilmente entre o processo de raciocínio e a resposta, melhorando a experiência do usuário.

2.2 Trajetória de raciocínio: A "cadeia de raciocínio" da solução do modelo

  • Trajetória de raciocínio: As etapas detalhadas geradas pelo modelo ao resolver um problema mostram a cadeia lógica do modelo.
  • Exemplo:

2.3 Amostragem de rejeição: Filtragem de bons dados de "tentativa e erro

  • Amostragem de rejeição: Gerar várias respostas de candidatos e reter as boas, semelhante a escrever um rascunho e depois copiar a resposta correta em um exame.

Geração de dados destilados

A primeira etapa da destilação do conhecimento é gerar "dados de ensino" de alta qualidade para que os modelos pequenos possam aprender com eles.

Fontes de dados:

  • 80% a partir dos dados de raciocínio gerados por DeepSeek-R1
  • 20% dos dados da tarefa geral do DeepSeek-V3.

Processo de geração de dados de destilação:

  • Filtragem de regrasVerifica automaticamente a exatidão da resposta (por exemplo, se a resposta matemática está de acordo com a fórmula).
  • Verificação de legibilidadeElimina idiomas mistos (por exemplo, chinês e inglês misturados) ou parágrafos longos.
  • Geração guiada por modelorequer que o DeepSeek-R1 produza trajetórias de inferência de acordo com o modelo.
  • Filtragem de amostragem de rejeição:
  • Integração de dadosNo final, foram geradas 800.000 amostras de alta qualidade, incluindo cerca de 600.000 dados de inferência e cerca de 200.000 dados gerais.

Ⅳ. Processo de destilação

Funções do professor e do aluno:

  • DeepSeek-R1 como modelo de professor;
  • Modelos da série Qwen como o modelo do aluno.

Etapas do treinamento:

Primeiro, a entrada de dados: você precisa inserir a parte da pergunta das 800.000 amostras no modelo Qwen e pedir que ele gere uma trajetória de inferência completa (processo de pensamento + resposta) de acordo com o modelo. Essa é uma etapa muito importante

Em seguida, cálculo de perda: compare a saída gerada pelo modelo do aluno com a trajetória de inferência do modelo do professor e alinhe a sequência de texto por meio do ajuste fino supervisionado (SFT). Se você não tiver certeza do que é SFT, espero que pesquise esta palavra-chave para saber mais

Concluir as atualizações de parâmetros para o modelo maior do aluno: Otimizar os parâmetros do modelo Qwen por meio de retropropagação para aproximar a saída do modelo do professor.

A repetição desse processo de treinamento várias vezes garante que o conhecimento seja suficientemente transferido. Isso atinge o objetivo original do treinamento. Daremos um exemplo para demonstrar isso e esperamos que você entenda

Ⅴ. Exemplo de demonstração

O artigo demonstra o efeito de destilação por meio de uma tarefa específica de resolução de equações (resolver equações):

  • Saída padrão do modelo do professor:
  • Saída do Qwen-7B antes da destilação:
  • Saída do Qwen-7B após a destilação:
  • Solução otimizada: Um processo de inferência estruturado é gerado, e a resposta é a mesma que o modelo do professor.

Ⅵ. Resumo

Por meio da destilação do conhecimento, a capacidade de inferência do DeepSeek-R1 é eficientemente migrada para a série Qwen de modelos pequenos. Esse processo se concentra na saída modelada e na amostragem de rejeição. Por meio da geração de dados estruturados e do treinamento refinado, os modelos pequenos também podem executar tarefas de inferência complexas em cenários com recursos limitados. Essa tecnologia fornece uma referência importante para a implantação leve de modelos de IA.

Publicações semelhantes

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *