{"id":746,"date":"2025-01-30T13:05:33","date_gmt":"2025-01-30T13:05:33","guid":{"rendered":"https:\/\/janusai.pro\/?p=746"},"modified":"2025-01-30T13:05:35","modified_gmt":"2025-01-30T13:05:35","slug":"the-complete-explanation-from-deepseek-janus-to-janus-pro","status":"publish","type":"post","link":"https:\/\/janusai.pro\/pt\/the-complete-explanation-from-deepseek-janus-to-janus-pro\/","title":{"rendered":"A explica\u00e7\u00e3o completa: do DeepSeek Janus ao Janus-Pro!"},"content":{"rendered":"<div style=\"margin-top: 0px; margin-bottom: 0px;\" class=\"sharethis-inline-share-buttons\" ><\/div>\n<p>Mensagem para levar para casa: O Janus \u00e9 um modelo simples, unificado e extens\u00edvel de compreens\u00e3o e gera\u00e7\u00e3o multimodal que dissocia a compreens\u00e3o multimodal e a codifica\u00e7\u00e3o visual gerada, atenuando os poss\u00edveis conflitos entre as duas tarefas. Ele pode ser ampliado para incorporar outras modalidades de entrada no futuro. O Janus-Pro se baseia nesse alicerce otimizando a estrat\u00e9gia de treinamento (inclusive aumentando o n\u00famero de etapas de treinamento, ajustando as propor\u00e7\u00f5es de dados etc.), adicionando mais dados (inclusive o uso de dados sint\u00e9ticos etc.) e ampliando o tamanho do modelo (para 7 bilh\u00f5es de par\u00e2metros), o que leva a avan\u00e7os na compreens\u00e3o multimodal do modelo e nos recursos de ades\u00e3o \u00e0 instru\u00e7\u00e3o de texto para imagem.<\/p>\n\n\n\n<figure class=\"wp-block-image\"><img decoding=\"async\" src=\"https:\/\/rmy9ct2fln.feishu.cn\/space\/api\/box\/stream\/download\/asynccode\/?code=Mjg4MjEwYjVlNzk0YTgyMTc0NDJlODQ4MTU2ZmRjYTVfWnhaaVEyZlEwUHFrUHNUeGNCOWpCRU1EVDN0QktBMUxfVG9rZW46SkVQZmJmSEhqb1g4YTJ4MVNYdmNPT2oybmVmXzE3MzgyNDIwMzc6MTczODI0NTYzN19WNA\" alt=\"\"\/><\/figure>\n\n\n\n<p><a href=\"https:\/\/github.com\/deepseek-ai\/JanusJanus\" target=\"_blank\" rel=\"noreferrer noopener nofollow\">Endere\u00e7o do c\u00f3digo<\/a><\/p>\n\n\n\n<p><a href=\"https:\/\/github.com\/deepseek-ai\/Janus\/blob\/main\/janus_pro_tech_report.pdf\" target=\"_blank\" rel=\"noreferrer noopener nofollow\">Endere\u00e7o Janus Pro<\/a><\/p>\n\n\n\n<p><a href=\"https:\/\/huggingface.co\/deepseek-ai\/Janus-Pro-7B\" target=\"_blank\" rel=\"noreferrer noopener nofollow\">Janus-Pro<\/a> \u00e9 uma vers\u00e3o avan\u00e7ada do trabalho anterior Janus, especificamente, incluindo (1) uma estrat\u00e9gia de treinamento otimizada, (2) dados de treinamento expandidos e (3) modelos maiores. Com esses aprimoramentos, o Janus-Pro faz avan\u00e7os significativos na compreens\u00e3o multimodal e nos recursos de ades\u00e3o \u00e0 instru\u00e7\u00e3o de texto para imagem, al\u00e9m de aumentar a estabilidade da gera\u00e7\u00e3o de texto para imagem. Antes de desvendar o Janus-Pro, vamos analisar o Janus.<\/p>\n\n\n\n<div id=\"ez-toc-container\" class=\"ez-toc-v2_0_82_2 counter-hierarchy ez-toc-counter ez-toc-grey ez-toc-container-direction\">\n<div class=\"ez-toc-title-container\">\n<p class=\"ez-toc-title\" style=\"cursor:inherit\">\u00cdndice<\/p>\n<span class=\"ez-toc-title-toggle\"><a href=\"#\" class=\"ez-toc-pull-right ez-toc-btn ez-toc-btn-xs ez-toc-btn-default ez-toc-toggle\" aria-label=\"Alternar tabela de conte\u00fado\"><span class=\"ez-toc-js-icon-con\"><span class=\"\"><span class=\"eztoc-hide\" style=\"display:none;\">Alternar<\/span><span class=\"ez-toc-icon-toggle-span\"><svg style=\"fill: #999;color:#999\" xmlns=\"http:\/\/www.w3.org\/2000\/svg\" class=\"list-377408\" width=\"20px\" height=\"20px\" viewbox=\"0 0 24 24\" fill=\"none\"><path d=\"M6 6H4v2h2V6zm14 0H8v2h12V6zM4 11h2v2H4v-2zm16 0H8v2h12v-2zM4 16h2v2H4v-2zm16 0H8v2h12v-2z\" fill=\"currentColor\"><\/path><\/svg><svg style=\"fill: #999;color:#999\" class=\"arrow-unsorted-368013\" xmlns=\"http:\/\/www.w3.org\/2000\/svg\" width=\"10px\" height=\"10px\" viewbox=\"0 0 24 24\" version=\"1.2\" baseprofile=\"tiny\"><path d=\"M18.2 9.3l-6.2-6.3-6.2 6.3c-.2.2-.3.4-.3.7s.1.5.3.7c.2.2.4.3.7.3h11c.3 0 .5-.1.7-.3.2-.2.3-.5.3-.7s-.1-.5-.3-.7zM5.8 14.7l6.2 6.3 6.2-6.3c.2-.2.3-.5.3-.7s-.1-.5-.3-.7c-.2-.2-.4-.3-.7-.3h-11c-.3 0-.5.1-.7.3-.2.2-.3.5-.3.7s.1.5.3.7z\"\/><\/svg><\/span><\/span><\/span><\/a><\/span><\/div>\n<nav><ul class='ez-toc-list ez-toc-list-level-1' ><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-1\" href=\"https:\/\/janusai.pro\/pt\/the-complete-explanation-from-deepseek-janus-to-janus-pro\/#Reviewing_Janus\" >Revis\u00e3o da Janus<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-2\" href=\"https:\/\/janusai.pro\/pt\/the-complete-explanation-from-deepseek-janus-to-janus-pro\/#Janus_training_is_divided_into_3_phases\" >O treinamento Janus \u00e9 dividido em tr\u00eas fases:<\/a><ul class='ez-toc-list-level-3' ><li class='ez-toc-heading-level-3'><a class=\"ez-toc-link ez-toc-heading-3\" href=\"https:\/\/janusai.pro\/pt\/the-complete-explanation-from-deepseek-janus-to-janus-pro\/#Phase_1\" >Fase 1<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-3'><a class=\"ez-toc-link ez-toc-heading-4\" href=\"https:\/\/janusai.pro\/pt\/the-complete-explanation-from-deepseek-janus-to-janus-pro\/#Phase_2\" >Fase 2<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-3'><a class=\"ez-toc-link ez-toc-heading-5\" href=\"https:\/\/janusai.pro\/pt\/the-complete-explanation-from-deepseek-janus-to-janus-pro\/#Phase_3\" >Fase 3<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-3'><a class=\"ez-toc-link ez-toc-heading-6\" href=\"https:\/\/janusai.pro\/pt\/the-complete-explanation-from-deepseek-janus-to-janus-pro\/#Training_Objectives\" >Objetivos do treinamento<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-3'><a class=\"ez-toc-link ez-toc-heading-7\" href=\"https:\/\/janusai.pro\/pt\/the-complete-explanation-from-deepseek-janus-to-janus-pro\/#Reasoning\" >Racioc\u00ednio<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-3'><a class=\"ez-toc-link ez-toc-heading-8\" href=\"https:\/\/janusai.pro\/pt\/the-complete-explanation-from-deepseek-janus-to-janus-pro\/#Possible_extensions\" >Poss\u00edveis extens\u00f5es<\/a><\/li><\/ul><\/li><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-9\" href=\"https:\/\/janusai.pro\/pt\/the-complete-explanation-from-deepseek-janus-to-janus-pro\/#Janus-Pro_Upgrade\" >Atualiza\u00e7\u00e3o do Janus-Pro<\/a><ul class='ez-toc-list-level-3' ><li class='ez-toc-heading-level-3'><a class=\"ez-toc-link ez-toc-heading-10\" href=\"https:\/\/janusai.pro\/pt\/the-complete-explanation-from-deepseek-janus-to-janus-pro\/#Main_Improvements\" >Principais melhorias<\/a><ul class='ez-toc-list-level-4' ><li class='ez-toc-heading-level-4'><a class=\"ez-toc-link ez-toc-heading-11\" href=\"https:\/\/janusai.pro\/pt\/the-complete-explanation-from-deepseek-janus-to-janus-pro\/#Training_Strategy\" >Estrat\u00e9gia de treinamento<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-4'><a class=\"ez-toc-link ez-toc-heading-12\" href=\"https:\/\/janusai.pro\/pt\/the-complete-explanation-from-deepseek-janus-to-janus-pro\/#Data_Scale\" >Escala de dados<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-4'><a class=\"ez-toc-link ez-toc-heading-13\" href=\"https:\/\/janusai.pro\/pt\/the-complete-explanation-from-deepseek-janus-to-janus-pro\/#Model_Scale\" >Escala de modelos<\/a><\/li><\/ul><\/li><li class='ez-toc-page-1 ez-toc-heading-level-3'><a class=\"ez-toc-link ez-toc-heading-14\" href=\"https:\/\/janusai.pro\/pt\/the-complete-explanation-from-deepseek-janus-to-janus-pro\/#Experimental_details\" >Detalhes experimentais<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-3'><a class=\"ez-toc-link ez-toc-heading-15\" href=\"https:\/\/janusai.pro\/pt\/the-complete-explanation-from-deepseek-janus-to-janus-pro\/#Insufficient\" >Insuficiente<\/a><\/li><\/ul><\/li><\/ul><\/nav><\/div>\n<h2 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Reviewing_Janus\"><\/span>Revis\u00e3o da Janus<span class=\"ez-toc-section-end\"><\/span><\/h2>\n\n\n\n<p>O antecessor Janus \u00e9 uma estrutura autorregressiva para gera\u00e7\u00e3o e compreens\u00e3o multimodal unificada, que \u00e9 usada para desacoplar a codifica\u00e7\u00e3o visual para gera\u00e7\u00e3o e compreens\u00e3o multimodal unificada. Para a compreens\u00e3o multimodal, o design normalmente segue o LLaVA, usando codificadores visuais como uma ponte para permitir que modelos de linguagem grandes compreendam imagens. Para a gera\u00e7\u00e3o, ele geralmente se baseia em modelos de difus\u00e3o, e alguns se baseiam em m\u00e9todos autorregressivos. Algumas abordagens tentam usar um \u00fanico Transformer para tentar unificar as tarefas de compreens\u00e3o e gera\u00e7\u00e3o multimodais, que normalmente usam um \u00fanico codificador visual para processar as entradas de ambas as tarefas.<\/p>\n\n\n\n<p>Entretanto, h\u00e1 diferen\u00e7as nas representa\u00e7\u00f5es necess\u00e1rias para as tarefas de compreens\u00e3o e gera\u00e7\u00e3o multimodais. Na tarefa de compreens\u00e3o multimodal, o codificador visual visa extrair informa\u00e7\u00f5es sem\u00e2nticas de alto n\u00edvel (por exemplo, categorias de objetos ou atributos visuais), e o resultado envolve n\u00e3o apenas a extra\u00e7\u00e3o de informa\u00e7\u00f5es da imagem, mas tamb\u00e9m o racioc\u00ednio sem\u00e2ntico complexo, com o codificador concentrando-se principalmente em representa\u00e7\u00f5es sem\u00e2nticas de alta dimens\u00e3o. A tarefa de gera\u00e7\u00e3o se preocupa principalmente com a gera\u00e7\u00e3o de detalhes locais e a manuten\u00e7\u00e3o da consist\u00eancia global da imagem, exigindo, portanto, representa\u00e7\u00f5es codificadas de baixa dimens\u00e3o de estruturas espaciais e detalhes de textura. Unificar as representa\u00e7\u00f5es de ambas as tarefas no mesmo espa\u00e7o pode gerar conflitos.<\/p>\n\n\n\n<p>O Janus cont\u00e9m dois caminhos de codifica\u00e7\u00e3o visual independentes para compreens\u00e3o e gera\u00e7\u00e3o multimodal e traz dois benef\u00edcios: 1) atenua os conflitos decorrentes dos diferentes requisitos de granularidade da compreens\u00e3o e da gera\u00e7\u00e3o multimodais e 2) \u00e9 flex\u00edvel e dimension\u00e1vel, desacoplando de modo que as tarefas de compreens\u00e3o e gera\u00e7\u00e3o possam ser codificadas usando t\u00e9cnicas de codifica\u00e7\u00e3o de \u00faltima gera\u00e7\u00e3o espec\u00edficas para seus dom\u00ednios e, no futuro, possam ser alimentadas com nuvens de pontos, sinais de EEG ou dados de \u00e1udio e processadas usando um transformador unificado.<\/p>\n\n\n\n<figure class=\"wp-block-image\"><img decoding=\"async\" src=\"https:\/\/rmy9ct2fln.feishu.cn\/space\/api\/box\/stream\/download\/asynccode\/?code=OTE3ZjkyNWQ5MmUwNDQzM2VjN2VlNWYwZjAxYTVmZGRfMXpJMWVObDBKOHYxTVJqeEw2S0pHT2hGU3RuVHdnWVdfVG9rZW46UDQyQ2Jrb0Myb1h0bjR4TFBrV2NRS29GbkRmXzE3MzgyNDIwMzc6MTczODI0NTYzN19WNA\" alt=\"\"\/><\/figure>\n\n\n\n<p>Para a compreens\u00e3o do texto, ele \u00e9 convertido em IDs discretos usando o Tokenizer integrado do LLM;<\/p>\n\n\n\n<p>Para a compreens\u00e3o multimodal, os recursos sem\u00e2nticos de alta dimens\u00e3o nas imagens s\u00e3o extra\u00eddos usando codificadores SigLIP (nota do autor: o Cosmos tamb\u00e9m usa codificadores SigLIP na se\u00e7\u00e3o Guardrails), e os recursos extra\u00eddos s\u00e3o mapeados no espa\u00e7o de recursos de texto do LLM usando o Adaptor (MLP de 2 camadas);<\/p>\n\n\n\n<p>O lado longo foi ajustado para 384 pixels e o lado curto foi preenchido para 384 pixels usando RGB(127, 127, 127);<\/p>\n\n\n\n<p>Para a gera\u00e7\u00e3o visual, a imagem foi convertida em IDs discretos usando o VQ Tokenizer, e cada ID foi mapeado no espa\u00e7o de recursos textuais do LLM usando o Adaptor (MLP de 2 camadas);<\/p>\n\n\n\n<p>As bordas curtas foram redimensionadas para 384 pixels e as bordas longas foram cortadas para 384 pixels;<\/p>\n\n\n\n<p>O treinamento geral foi realizado com 16 n\u00f3s, cada um contendo 8 GPUs Nvidia A100;<\/p>\n\n\n\n<p>Para as tarefas de gera\u00e7\u00e3o visual e compreens\u00e3o multimodal, as sequ\u00eancias de recursos de imagem e as sequ\u00eancias de recursos de texto s\u00e3o vinculadas como entrada para o LLM (o DeepSeek-LLM 1.3B \u00e9 usado no texto);<\/p>\n\n\n\n<blockquote class=\"wp-block-quote is-layout-flow wp-block-quote-is-layout-flow\">\n<p>O cabe\u00e7ote de previs\u00e3o integrado do LLM \u00e9 utilizado para previs\u00f5es de texto nas tarefas de compreens\u00e3o de texto puro e de compreens\u00e3o multimodal, enquanto um cabe\u00e7ote de previs\u00e3o inicializado aleatoriamente \u00e9 utilizado para previs\u00f5es de imagem na tarefa de gera\u00e7\u00e3o visual. O modelo inteiro adere a uma estrutura autorregressiva sem a necessidade de m\u00e1scaras de aten\u00e7\u00e3o especialmente projetadas.<\/p>\n<\/blockquote>\n\n\n\n<h2 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Janus_training_is_divided_into_3_phases\"><\/span><a href=\"https:\/\/huggingface.co\/deepseek-ai\/Janus-Pro-7B\" target=\"_blank\" rel=\"noreferrer noopener nofollow\">Treinamento Janus<\/a> \u00e9 dividido em tr\u00eas fases:<span class=\"ez-toc-section-end\"><\/span><\/h2>\n\n\n\n<h3 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Phase_1\"><\/span>Fase 1<span class=\"ez-toc-section-end\"><\/span><\/h3>\n\n\n\n<p><strong>Adaptador de trem e cabe\u00e7ote de imagem<\/strong> para criar conex\u00f5es entre elementos lingu\u00edsticos e visuais no espa\u00e7o de incorpora\u00e7\u00e3o, permitindo que o LLM compreenda as entidades na imagem e tenha recursos iniciais de gera\u00e7\u00e3o visual;<\/p>\n\n\n\n<p>Para compreens\u00e3o multimodal, use 1,25 milh\u00e3o de dados de legendas emparelhadas de texto de imagem do SHareGPT4V no formato: ;<\/p>\n\n\n\n<p>Para gera\u00e7\u00e3o visual, usando 1,2 milh\u00e3o de amostras do ImageNet1k no formato: ;<\/p>\n\n\n\n<h3 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Phase_2\"><\/span>Fase 2<span class=\"ez-toc-section-end\"><\/span><\/h3>\n\n\n\n<p><strong>Pr\u00e9-treinamento unificado<\/strong>O objetivo da fase de treinamento \u00e9 o de criar um corpus multimodal, usando um corpus multimodal para pr\u00e9-treinamento unificado para aprender a compreens\u00e3o e a gera\u00e7\u00e3o multimodais. Dados de texto simples, dados de compreens\u00e3o multimodal e dados de gera\u00e7\u00e3o visual s\u00e3o usados nessa fase. Treinamento simples de gera\u00e7\u00e3o visual usando o ImageNet-1k, seguido pelo uso de dados gen\u00e9ricos de texto para imagem para aprimorar a gera\u00e7\u00e3o visual no dom\u00ednio aberto do modelo;<\/p>\n\n\n\n<p>Dados de texto simples: Corpus pr\u00e9-treinado do DeepSeek-LLM;<\/p>\n\n\n\n<p>Dados intercalados de imagem-texto: Conjuntos de dados WikiHow e WIT;<\/p>\n\n\n\n<p>Dados da legenda da imagem: Imagens de v\u00e1rias fontes e legendadas novamente algumas das imagens usando modelos multimodais de c\u00f3digo aberto, com dados formatados como pares de perguntas e respostas, por exemplo, Descreva a imagem em detalhes.<caption>;<\/p>\n\n\n\n<p>Dados tabulares e gr\u00e1ficos: dados tabulares e gr\u00e1ficos correspondentes do DeepSeek-VL no formato ;<\/p>\n\n\n\n<p>Dados gerados visualmente: pares imagem-cap\u00edtulo de v\u00e1rios conjuntos de dados e 2 milh\u00f5es de dados internos;<\/p>\n\n\n\n<p>Durante o treinamento, apenas a primeira frase da legenda \u00e9 usada aleatoriamente com uma probabilidade de 25%;<\/p>\n\n\n\n<p>As amostras do ImageNet aparecem somente nas 120 mil etapas iniciais de treinamento, com imagens de outros conjuntos de dados aparecendo nas 60 mil etapas subsequentes;<\/p>\n\n\n\n<h3 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Phase_3\"><\/span>Fase 3<span class=\"ez-toc-section-end\"><\/span><\/h3>\n\n\n\n<p><strong>Ajuste fino supervisionado<\/strong>onde os modelos pr\u00e9-treinados s\u00e3o ajustados usando dados de ajuste fino de instru\u00e7\u00f5es para melhorar sua capacidade de seguir instru\u00e7\u00f5es e di\u00e1logos. Ajuste fino de todos os par\u00e2metros, exceto o codificador de gera\u00e7\u00e3o. Mascarar as dicas do sistema e do usu\u00e1rio ao supervisionar as respostas. Para garantir que o Janus tenha profici\u00eancia tanto na compreens\u00e3o quanto na gera\u00e7\u00e3o multimodal, os modelos n\u00e3o s\u00e3o ajustados separadamente para tarefas espec\u00edficas. Em vez disso, usamos uma combina\u00e7\u00e3o de dados de di\u00e1logo somente de texto, dados de compreens\u00e3o multimodal e dados de gera\u00e7\u00e3o visual para garantir a versatilidade em uma variedade de cen\u00e1rios;<\/p>\n\n\n\n<p>Compreens\u00e3o de texto: usa dados de fontes espec\u00edficas;<\/p>\n\n\n\n<p>Compreens\u00e3o multimodal: uso de dados de v\u00e1rias fontes para ajuste de instru\u00e7\u00f5es;<\/p>\n\n\n\n<p>Gera\u00e7\u00e3o visual: usando um subconjunto de pares imagem-texto de alguns dos conjuntos de dados da Fase II, bem como 4 milh\u00f5es de dados internos;<\/p>\n\n\n\n<p>O formato dos dados \u00e9: Usu\u00e1rio: \\nAssistente: ;<\/p>\n\n\n\n<figure class=\"wp-block-image\"><img decoding=\"async\" src=\"https:\/\/rmy9ct2fln.feishu.cn\/space\/api\/box\/stream\/download\/asynccode\/?code=M2I3MWQ5MjQyNTM5NjIyZTkyMjdlODgwMDg5NzIwYzJfSGVTUnVzb0I3bEREQXBkMEJGN0lqT0JBaEVUWEQwS05fVG9rZW46Vm9OMWJzYnNsbzRGR1R4YlJrNWNad1psblhjXzE3MzgyNDIwMzc6MTczODI0NTYzN19WNA\" alt=\"\"\/><\/figure>\n\n\n\n<h3 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Training_Objectives\"><\/span>Objetivos do treinamento<span class=\"ez-toc-section-end\"><\/span><\/h3>\n\n\n\n<p>O Janus \u00e9 um modelo autorregressivo treinado usando uma fun\u00e7\u00e3o de perda de entropia cruzada. Para tarefas de compreens\u00e3o de texto simples e compreens\u00e3o multimodal, a perda \u00e9 calculada na sequ\u00eancia de texto. Para tarefas de gera\u00e7\u00e3o visual, a perda \u00e9 calculada somente na sequ\u00eancia de imagens. Para manter o design simples, n\u00e3o s\u00e3o atribu\u00eddos pesos de perda diferentes \u00e0s diferentes tarefas.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Reasoning\"><\/span>Racioc\u00ednio<span class=\"ez-toc-section-end\"><\/span><\/h3>\n\n\n\n<p>Usando o pr\u00f3ximo m\u00e9todo de previs\u00e3o de elemento lexical, para compreens\u00e3o de texto simples e compreens\u00e3o multimodal, os elementos lexicais s\u00e3o amostrados sequencialmente a partir da distribui\u00e7\u00e3o de previs\u00e3o. Para a gera\u00e7\u00e3o de imagens, \u00e9 usado um bootstrap sem classificador.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Possible_extensions\"><\/span>Poss\u00edveis extens\u00f5es<span class=\"ez-toc-section-end\"><\/span><\/h3>\n\n\n\n<p>Para a compreens\u00e3o multimodal, 1) um codificador visual mais forte poderia ser escolhido e 2) t\u00e9cnicas din\u00e2micas de alta resolu\u00e7\u00e3o poderiam ser usadas;<\/p>\n\n\n\n<p>Para a gera\u00e7\u00e3o de vis\u00e3o, 1) poderiam ser escolhidos codificadores mais refinados, 2) usar fun\u00e7\u00f5es de perda projetadas especificamente para a gera\u00e7\u00e3o de vis\u00e3o e 3) combinar aten\u00e7\u00e3o causal e m\u00e9todos paralelos;<\/p>\n\n\n\n<p>Mais modalidades, com a capacidade de integrar nuvens de pontos 3D, h\u00e1pticos, EEG e outras entradas para modalidades de perda;<\/p>\n\n\n\n<h2 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Janus-Pro_Upgrade\"><\/span><a href=\"https:\/\/huggingface.co\/deepseek-ai\/Janus-Pro-7B\" target=\"_blank\" rel=\"noreferrer noopener nofollow\">Atualiza\u00e7\u00e3o do Janus-Pro<\/a><span class=\"ez-toc-section-end\"><\/span><\/h2>\n\n\n\n<p>Com dados de treinamento limitados e capacidade de modelo relativamente pequena (1B), o Janus \u00e9 deficiente em alguns aspectos, como a representa\u00e7\u00e3o deficiente da gera\u00e7\u00e3o de imagens sob pistas curtas e a qualidade inconsistente da gera\u00e7\u00e3o de texto para imagem:<\/p>\n\n\n\n<figure class=\"wp-block-image\"><img decoding=\"async\" src=\"https:\/\/rmy9ct2fln.feishu.cn\/space\/api\/box\/stream\/download\/asynccode\/?code=NDY0ZWM0NTJiOTNlYTE4MWI4NmMwNGE4Mjc3NmYyMDJfc1FEMHVOMHo1OUM0ZVhoakJtU1lZQXdZNTd4NVFXRzhfVG9rZW46RjJrTGI3VVlqb0IxS3N4aHVVN2NxUWxJbnZkXzE3MzgyNDIwMzc6MTczODI0NTYzN19WNA\" alt=\"\"\/><\/figure>\n\n\n\n<h3 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Main_Improvements\"><\/span>Principais melhorias<span class=\"ez-toc-section-end\"><\/span><\/h3>\n\n\n\n<h4 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Training_Strategy\"><\/span>Estrat\u00e9gia de treinamento<span class=\"ez-toc-section-end\"><\/span><\/h4>\n\n\n\n<p>Etapa 1: aumentar o n\u00famero de etapas de treinamento e treinar totalmente no ImageNet;<\/p>\n\n\n\n<p>Etapa 2: n\u00e3o usar mais o ImageNet, usar diretamente dados regulares de texto para imagem para treinamento;<\/p>\n\n\n\n<p>Etapa 3: Modificar as propor\u00e7\u00f5es do conjunto de dados no processo de ajuste fino, alterando a propor\u00e7\u00e3o de dados multimodais, dados de texto simples e dados de texto para imagem de 7:3:10 para 5:1:4;<\/p>\n\n\n\n<h4 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Data_Scale\"><\/span>Escala de dados<span class=\"ez-toc-section-end\"><\/span><\/h4>\n\n\n\n<p>Compreens\u00e3o multimodal<\/p>\n\n\n\n<p>Est\u00e1gio 2: Adicione 90 milh\u00f5es de amostras, incluindo YFCC para legendas de imagens e Doc-matrix para compreens\u00e3o de documentos de tabelas e gr\u00e1ficos;<\/p>\n\n\n\n<p>Etapa 3: adicionar conjuntos de dados adicionais ao DeepSeek-VL2, como a compreens\u00e3o do MEME;<\/p>\n\n\n\n<p>Gera\u00e7\u00e3o visual: os dados do mundo real podem ser de baixa qualidade, resultando em uma gera\u00e7\u00e3o inst\u00e1vel de texto para imagem e em um resultado est\u00e9tico ruim. O Janus-Pro usa 72 milh\u00f5es de amostras de dados est\u00e9ticos sint\u00e9ticos, com uma fase de pr\u00e9-treinamento uniforme (Est\u00e1gio 2) de propor\u00e7\u00e3o 1:1 de dados reais para dados sint\u00e9ticos;<\/p>\n\n\n\n<h4 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Model_Scale\"><\/span>Escala de modelos<span class=\"ez-toc-section-end\"><\/span><\/h4>\n\n\n\n<p>Dimensione os par\u00e2metros do modelo para uma escala de par\u00e2metros de 7 bilh\u00f5es;<\/p>\n\n\n\n<h3 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Experimental_details\"><\/span>Detalhes experimentais<span class=\"ez-toc-section-end\"><\/span><\/h3>\n\n\n\n<p>Em compara\u00e7\u00e3o com o Janus, os detalhes dos experimentos Janus-Pro s\u00e3o basicamente os mesmos. Em contrapartida, o modelo de par\u00e2metros maiores usou mais n\u00f3s de cluster (16 a 32).<\/p>\n\n\n\n<figure class=\"wp-block-image\"><img decoding=\"async\" src=\"https:\/\/rmy9ct2fln.feishu.cn\/space\/api\/box\/stream\/download\/asynccode\/?code=NDM1YTM1ZDliNDUwYzAzNzg4MTNiNjUzYWZlZjVhZjhfZGI5ZWloREhYV29OZUxiaEVFc0dhN1dMTDhGdG5ZSnNfVG9rZW46STA0amJtbVlhb0NySk94NkRKNmNqNDVybmdiXzE3MzgyNDIwMzc6MTczODI0NTYzN19WNA\" alt=\"\"\/><\/figure>\n\n\n\n<p>Hiperpar\u00e2metros de treinamento Janus-Pro<\/p>\n\n\n\n<h3 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Insufficient\"><\/span>Insuficiente<span class=\"ez-toc-section-end\"><\/span><\/h3>\n\n\n\n<p>Para a compreens\u00e3o multimodal, a resolu\u00e7\u00e3o de entrada \u00e9 limitada a 384\u00d7384, o que afeta o desempenho em tarefas visuais de granula\u00e7\u00e3o fina. Para a gera\u00e7\u00e3o de texto para imagem, a baixa resolu\u00e7\u00e3o resulta em uma falta de detalhes nos resultados gerados.<\/p>","protected":false},"excerpt":{"rendered":"<p>Mensagem para levar para casa: O Janus \u00e9 um modelo simples, unificado e extens\u00edvel de compreens\u00e3o e gera\u00e7\u00e3o multimodal que dissocia a compreens\u00e3o multimodal e a codifica\u00e7\u00e3o visual gerada, atenuando os poss\u00edveis conflitos entre as duas tarefas. Ele pode ser ampliado para incorporar outras modalidades de entrada no futuro. O Janus-Pro se baseia nesse fundamento, otimizando a estrat\u00e9gia de treinamento (incluindo o aumento da...<\/p>","protected":false},"author":2,"featured_media":684,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_kadence_starter_templates_imported_post":false,"_kad_post_transparent":"","_kad_post_title":"","_kad_post_layout":"","_kad_post_sidebar_id":"","_kad_post_content_style":"","_kad_post_vertical_padding":"","_kad_post_feature":"","_kad_post_feature_position":"","_kad_post_header":false,"_kad_post_footer":false,"footnotes":""},"categories":[1],"tags":[],"class_list":["post-746","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-uncategorized"],"_links":{"self":[{"href":"https:\/\/janusai.pro\/pt\/wp-json\/wp\/v2\/posts\/746","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/janusai.pro\/pt\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/janusai.pro\/pt\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/janusai.pro\/pt\/wp-json\/wp\/v2\/users\/2"}],"replies":[{"embeddable":true,"href":"https:\/\/janusai.pro\/pt\/wp-json\/wp\/v2\/comments?post=746"}],"version-history":[{"count":1,"href":"https:\/\/janusai.pro\/pt\/wp-json\/wp\/v2\/posts\/746\/revisions"}],"predecessor-version":[{"id":747,"href":"https:\/\/janusai.pro\/pt\/wp-json\/wp\/v2\/posts\/746\/revisions\/747"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/janusai.pro\/pt\/wp-json\/wp\/v2\/media\/684"}],"wp:attachment":[{"href":"https:\/\/janusai.pro\/pt\/wp-json\/wp\/v2\/media?parent=746"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/janusai.pro\/pt\/wp-json\/wp\/v2\/categories?post=746"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/janusai.pro\/pt\/wp-json\/wp\/v2\/tags?post=746"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}