{"id":847,"date":"2025-02-04T16:27:27","date_gmt":"2025-02-04T16:27:27","guid":{"rendered":"https:\/\/janusai.pro\/?p=847"},"modified":"2025-02-04T16:27:28","modified_gmt":"2025-02-04T16:27:28","slug":"how-good-is-deepseeks-janus-pro","status":"publish","type":"post","link":"https:\/\/janusai.pro\/pt\/how-good-is-deepseeks-janus-pro\/","title":{"rendered":"Qual \u00e9 a qualidade do Janus-Pro do DeepSeek?"},"content":{"rendered":"<div style=\"margin-top: 0px; margin-bottom: 0px;\" class=\"sharethis-inline-share-buttons\" ><\/div>\n<p>Na v\u00e9spera do Festival da Primavera, o modelo DeepSeek-R1 foi lan\u00e7ado. Com sua arquitetura RL pura, ele aprendeu com as grandes inova\u00e7\u00f5es da CoT e supera <a href=\"https:\/\/openai.com\/\" target=\"_blank\" rel=\"noreferrer noopener nofollow\">ChatGPT<\/a> em matem\u00e1tica, c\u00f3digo e racioc\u00ednio l\u00f3gico.<\/p>\n\n\n\n<p>Al\u00e9m disso, seus pesos de modelo de c\u00f3digo aberto, baixos custos de treinamento e pre\u00e7os baratos de API tornaram o DeepSeek um sucesso na Internet, fazendo at\u00e9 mesmo com que os pre\u00e7os das a\u00e7\u00f5es da NVIDIA e da ASML ca\u00edssem por um tempo.<\/p>\n\n\n\n<p>Enquanto explodia em popularidade, a DeepSeek tamb\u00e9m lan\u00e7ou uma vers\u00e3o atualizada do modelo multimodal de grande porte Janus (Janus), Janus-Pro, que herda a arquitetura unificada da gera\u00e7\u00e3o anterior de compreens\u00e3o e gera\u00e7\u00e3o multimodal e otimiza a estrat\u00e9gia de treinamento, dimensionando os dados de treinamento e o tamanho do modelo, proporcionando um desempenho mais forte.<\/p>\n\n\n\n<figure class=\"wp-block-image\"><img loading=\"lazy\" decoding=\"async\" width=\"1080\" height=\"427\" src=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/56e80359-198e-4faf-981a-54b7dfe49f02.png\" alt=\"\" class=\"wp-image-850\" srcset=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/56e80359-198e-4faf-981a-54b7dfe49f02.png 1080w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/56e80359-198e-4faf-981a-54b7dfe49f02-300x119.png 300w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/56e80359-198e-4faf-981a-54b7dfe49f02-1024x405.png 1024w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/56e80359-198e-4faf-981a-54b7dfe49f02-768x304.png 768w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/56e80359-198e-4faf-981a-54b7dfe49f02-18x7.png 18w\" sizes=\"auto, (max-width: 1080px) 100vw, 1080px\" \/><\/figure>\n\n\n\n<figure class=\"wp-block-image\"><img loading=\"lazy\" decoding=\"async\" width=\"1080\" height=\"522\" src=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/af7da2cf-a17d-4ac3-95ba-42252fe1a481.png\" alt=\"\" class=\"wp-image-854\" srcset=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/af7da2cf-a17d-4ac3-95ba-42252fe1a481.png 1080w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/af7da2cf-a17d-4ac3-95ba-42252fe1a481-300x145.png 300w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/af7da2cf-a17d-4ac3-95ba-42252fe1a481-1024x495.png 1024w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/af7da2cf-a17d-4ac3-95ba-42252fe1a481-768x371.png 768w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/af7da2cf-a17d-4ac3-95ba-42252fe1a481-18x9.png 18w\" sizes=\"auto, (max-width: 1080px) 100vw, 1080px\" \/><\/figure>\n\n\n\n<div id=\"ez-toc-container\" class=\"ez-toc-v2_0_72 counter-hierarchy ez-toc-counter ez-toc-grey ez-toc-container-direction\">\n<div class=\"ez-toc-title-container\">\n<p class=\"ez-toc-title\" style=\"cursor:inherit\">\u00cdndice<\/p>\n<span class=\"ez-toc-title-toggle\"><a href=\"#\" class=\"ez-toc-pull-right ez-toc-btn ez-toc-btn-xs ez-toc-btn-default ez-toc-toggle\" aria-label=\"Alternar tabela de conte\u00fado\"><span class=\"ez-toc-js-icon-con\"><span class=\"\"><span class=\"eztoc-hide\" style=\"display:none;\">Alternar<\/span><span class=\"ez-toc-icon-toggle-span\"><svg style=\"fill: #999;color:#999\" xmlns=\"http:\/\/www.w3.org\/2000\/svg\" class=\"list-377408\" width=\"20px\" height=\"20px\" viewbox=\"0 0 24 24\" fill=\"none\"><path d=\"M6 6H4v2h2V6zm14 0H8v2h12V6zM4 11h2v2H4v-2zm16 0H8v2h12v-2zM4 16h2v2H4v-2zm16 0H8v2h12v-2z\" fill=\"currentColor\"><\/path><\/svg><svg style=\"fill: #999;color:#999\" class=\"arrow-unsorted-368013\" xmlns=\"http:\/\/www.w3.org\/2000\/svg\" width=\"10px\" height=\"10px\" viewbox=\"0 0 24 24\" version=\"1.2\" baseprofile=\"tiny\"><path d=\"M18.2 9.3l-6.2-6.3-6.2 6.3c-.2.2-.3.4-.3.7s.1.5.3.7c.2.2.4.3.7.3h11c.3 0 .5-.1.7-.3.2-.2.3-.5.3-.7s-.1-.5-.3-.7zM5.8 14.7l6.2 6.3 6.2-6.3c.2-.2.3-.5.3-.7s-.1-.5-.3-.7c-.2-.2-.4-.3-.7-.3h-11c-.3 0-.5.1-.7.3-.2.2-.3.5-.3.7s.1.5.3.7z\"\/><\/svg><\/span><\/span><\/span><\/a><\/span><\/div>\n<nav><ul class='ez-toc-list ez-toc-list-level-1' ><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-1\" href=\"https:\/\/janusai.pro\/pt\/how-good-is-deepseeks-janus-pro\/#Janus-Pro\" title=\"Janus-Pro\">Janus-Pro<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-2\" href=\"https:\/\/janusai.pro\/pt\/how-good-is-deepseeks-janus-pro\/#Model_architecture\" title=\"Arquitetura do modelo\">Arquitetura do modelo<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-3\" href=\"https:\/\/janusai.pro\/pt\/how-good-is-deepseeks-janus-pro\/#Training_strategy\" title=\"Estrat\u00e9gia de treinamento\">Estrat\u00e9gia de treinamento<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-4\" href=\"https:\/\/janusai.pro\/pt\/how-good-is-deepseeks-janus-pro\/#Training_data_scaling\" title=\"Dimensionamento de dados de treinamento\">Dimensionamento de dados de treinamento<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-5\" href=\"https:\/\/janusai.pro\/pt\/how-good-is-deepseeks-janus-pro\/#Model_scaling\" title=\"Dimensionamento do modelo\">Dimensionamento do modelo<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-6\" href=\"https:\/\/janusai.pro\/pt\/how-good-is-deepseeks-janus-pro\/#Model_evaluation\" title=\"Avalia\u00e7\u00e3o do modelo\">Avalia\u00e7\u00e3o do modelo<\/a><\/li><\/ul><\/nav><\/div>\n<h2 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Janus-Pro\"><\/span>Janus-Pro<span class=\"ez-toc-section-end\"><\/span><\/h2>\n\n\n\n<p><a href=\"https:\/\/huggingface.co\/deepseek-ai\/Janus-Pro-7B\" target=\"_blank\" rel=\"noreferrer noopener nofollow\">Janus-Pro<\/a> \u00e9 um modelo de linguagem multimodal unificado (MLLM) que pode processar simultaneamente tarefas de compreens\u00e3o multimodal e tarefas de gera\u00e7\u00e3o, ou seja, ele pode compreender o conte\u00fado de uma imagem e tamb\u00e9m gerar texto.<\/p>\n\n\n\n<p>Ele desacopla os codificadores visuais para compreens\u00e3o e gera\u00e7\u00e3o multimodal (ou seja, diferentes tokenizadores s\u00e3o usados para a entrada da compreens\u00e3o da imagem e a entrada e sa\u00edda da gera\u00e7\u00e3o da imagem) e os processa usando um transformador autorregressivo unificado.<\/p>\n\n\n\n<p>Como um modelo avan\u00e7ado de gera\u00e7\u00e3o e compreens\u00e3o multimodal, ele \u00e9 uma vers\u00e3o atualizada do modelo Janus anterior.<\/p>\n\n\n\n<p>Na mitologia romana, Jano (Janus) \u00e9 um deus guardi\u00e3o de duas faces que simboliza a contradi\u00e7\u00e3o e a transi\u00e7\u00e3o. Ele tem duas faces, o que tamb\u00e9m sugere que o modelo Janus pode entender e gerar imagens, o que \u00e9 muito apropriado. Ent\u00e3o, o que exatamente o PRO atualizou?<\/p>\n\n\n\n<p>O Janus, como um modelo pequeno de 1.3B, \u00e9 mais uma vers\u00e3o pr\u00e9via do que uma vers\u00e3o oficial. Ele explora a compreens\u00e3o e a gera\u00e7\u00e3o multimodais unificadas, mas tem muitos problemas, como efeitos inst\u00e1veis de gera\u00e7\u00e3o de imagens, grandes desvios das instru\u00e7\u00f5es do usu\u00e1rio e detalhes inadequados.<\/p>\n\n\n\n<p>A vers\u00e3o Pro otimiza a estrat\u00e9gia de treinamento, aumenta o conjunto de dados de treinamento e fornece um modelo maior (7B) para escolha, al\u00e9m de fornecer um modelo 1B.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Model_architecture\"><\/span>Arquitetura do modelo<span class=\"ez-toc-section-end\"><\/span><\/h2>\n\n\n\n<p><a href=\"https:\/\/huggingface.co\/deepseek-ai\/Janus-Pro-7B\" target=\"_blank\" rel=\"noreferrer noopener nofollow\">Jaus-Pro e Janus<\/a> s\u00e3o id\u00eanticos em termos de arquitetura de modelo. (Apenas 1,3 bilh\u00e3o! Janus unifica a compreens\u00e3o e a gera\u00e7\u00e3o multimodais)<\/p>\n\n\n\n<figure class=\"wp-block-image\"><img loading=\"lazy\" decoding=\"async\" width=\"1080\" height=\"571\" src=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/60356ab0-3c6e-4017-9eba-7ee44e0a1006.png\" alt=\"\" class=\"wp-image-851\" srcset=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/60356ab0-3c6e-4017-9eba-7ee44e0a1006.png 1080w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/60356ab0-3c6e-4017-9eba-7ee44e0a1006-300x159.png 300w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/60356ab0-3c6e-4017-9eba-7ee44e0a1006-1024x541.png 1024w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/60356ab0-3c6e-4017-9eba-7ee44e0a1006-768x406.png 768w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/60356ab0-3c6e-4017-9eba-7ee44e0a1006-18x10.png 18w\" sizes=\"auto, (max-width: 1080px) 100vw, 1080px\" \/><\/figure>\n\n\n\n<p>O princ\u00edpio central do projeto \u00e9 dissociar a codifica\u00e7\u00e3o visual para dar suporte \u00e0 compreens\u00e3o e \u00e0 gera\u00e7\u00e3o multimodais. O Janus-Pro codifica a imagem original\/entrada de texto separadamente, extrai recursos de alta dimens\u00e3o e os processa por meio de um transformador autorregressivo unificado.<\/p>\n\n\n\n<p>A compreens\u00e3o da imagem multimodal usa o SigLIP para codificar os recursos da imagem (codificador azul na figura acima), e a tarefa de gera\u00e7\u00e3o usa o tokenizador VQ para discretizar a imagem (codificador amarelo na figura acima). Por fim, todas as sequ\u00eancias de recursos s\u00e3o inseridas no LLM para processamento<\/p>\n\n\n\n<h2 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Training_strategy\"><\/span>Estrat\u00e9gia de treinamento<span class=\"ez-toc-section-end\"><\/span><\/h2>\n\n\n\n<p>Em termos de estrat\u00e9gia de treinamento, o Janus-Pro fez mais melhorias. A vers\u00e3o antiga do Janus usava uma estrat\u00e9gia de treinamento de tr\u00eas est\u00e1gios, na qual o Est\u00e1gio I treina o adaptador de entrada e o cabe\u00e7ote de gera\u00e7\u00e3o de imagens para compreens\u00e3o e gera\u00e7\u00e3o de imagens, o Est\u00e1gio II executa um pr\u00e9-treinamento unificado e o Est\u00e1gio III ajusta o codificador de compreens\u00e3o com base nisso. (A estrat\u00e9gia de treinamento da Janus \u00e9 mostrada na figura abaixo).<\/p>\n\n\n\n<figure class=\"wp-block-image\"><img loading=\"lazy\" decoding=\"async\" width=\"1080\" height=\"381\" src=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/dbf6954f-1a18-4572-a452-ec995c8af71a.png\" alt=\"\" class=\"wp-image-849\" srcset=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/dbf6954f-1a18-4572-a452-ec995c8af71a.png 1080w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/dbf6954f-1a18-4572-a452-ec995c8af71a-300x106.png 300w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/dbf6954f-1a18-4572-a452-ec995c8af71a-1024x361.png 1024w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/dbf6954f-1a18-4572-a452-ec995c8af71a-768x271.png 768w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/dbf6954f-1a18-4572-a452-ec995c8af71a-18x6.png 18w\" sizes=\"auto, (max-width: 1080px) 100vw, 1080px\" \/><\/figure>\n\n\n\n<p>No entanto, essa estrat\u00e9gia usa o m\u00e9todo PixArt para dividir o treinamento da gera\u00e7\u00e3o de texto para imagem no Est\u00e1gio II, o que resulta em baixa efici\u00eancia computacional.<\/p>\n\n\n\n<p>Para isso, estendemos o tempo de treinamento do Est\u00e1gio I e adicionamos o treinamento com dados do ImageNet, de modo que o modelo possa modelar efetivamente as depend\u00eancias de pixel com par\u00e2metros LLM fixos. No Est\u00e1gio II, descartamos os dados do ImageNet e usamos diretamente os dados do par texto-imagem para treinar, o que melhora a efici\u00eancia do treinamento. Al\u00e9m disso, ajustamos a propor\u00e7\u00e3o de dados no Est\u00e1gio III (multimodal: somente texto: dados de gr\u00e1fico visual-sem\u00e2ntico de 7:3:10 para 5:1:4), melhorando a compreens\u00e3o multimodal e mantendo os recursos de gera\u00e7\u00e3o visual.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Training_data_scaling\"><\/span>Dimensionamento de dados de treinamento<span class=\"ez-toc-section-end\"><\/span><\/h2>\n\n\n\n<p>O Janus-Pro tamb\u00e9m dimensiona os dados de treinamento do Janus em termos de compreens\u00e3o multimodal e gera\u00e7\u00e3o visual.<\/p>\n\n\n\n<p>Compreens\u00e3o multimodal: Os dados de pr\u00e9-treinamento do Est\u00e1gio II s\u00e3o baseados no DeepSeek-VL2 e incluem cerca de 90 milh\u00f5es de novas amostras, incluindo dados de legenda de imagem (como YFCC) e dados de compreens\u00e3o de tabelas, gr\u00e1ficos e documentos (como Docmatix).<\/p>\n\n\n\n<p>O est\u00e1gio de ajuste fino supervisionado do Est\u00e1gio III introduz ainda a compreens\u00e3o do MEME, dados de di\u00e1logos chineses, etc., para melhorar o desempenho do modelo no processamento multitarefa e nos recursos de di\u00e1logo.<\/p>\n\n\n\n<p>Gera\u00e7\u00e3o visual: As vers\u00f5es anteriores usavam dados reais de baixa qualidade e alto ru\u00eddo, o que afetava a estabilidade e a est\u00e9tica das imagens geradas por texto.<\/p>\n\n\n\n<p>O Janus-Pro introduz cerca de 72 milh\u00f5es de dados est\u00e9ticos sint\u00e9ticos, elevando a propor\u00e7\u00e3o de dados reais para dados sint\u00e9ticos para 1:1. Os experimentos mostraram que os dados sint\u00e9ticos aceleram a converg\u00eancia do modelo e melhoram significativamente a estabilidade e a qualidade est\u00e9tica das imagens geradas.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Model_scaling\"><\/span>Dimensionamento do modelo<span class=\"ez-toc-section-end\"><\/span><\/h2>\n\n\n\n<p>O Janus Pro amplia o tamanho do modelo para 7B, enquanto a vers\u00e3o anterior do Janus usava o DeepSeek-LLM de 1,5B para verificar a efic\u00e1cia da dissocia\u00e7\u00e3o da codifica\u00e7\u00e3o visual. Os experimentos mostram que um LLM maior acelera significativamente a converg\u00eancia da compreens\u00e3o multimodal e da gera\u00e7\u00e3o visual, verificando ainda mais a forte escalabilidade do m\u00e9todo.<\/p>\n\n\n\n<figure class=\"wp-block-image\"><img loading=\"lazy\" decoding=\"async\" width=\"864\" height=\"352\" src=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/a19590e2-1805-493d-85e3-09c9b8e2274b.png\" alt=\"\" class=\"wp-image-848\" srcset=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/a19590e2-1805-493d-85e3-09c9b8e2274b.png 864w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/a19590e2-1805-493d-85e3-09c9b8e2274b-300x122.png 300w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/a19590e2-1805-493d-85e3-09c9b8e2274b-768x313.png 768w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/a19590e2-1805-493d-85e3-09c9b8e2274b-18x7.png 18w\" sizes=\"auto, (max-width: 864px) 100vw, 864px\" \/><\/figure>\n\n\n\n<figure class=\"wp-block-image\"><img loading=\"lazy\" decoding=\"async\" width=\"1080\" height=\"536\" src=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/c78ed17c-6e07-43ef-bfda-ae287f597bba.png\" alt=\"\" class=\"wp-image-852\" srcset=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/c78ed17c-6e07-43ef-bfda-ae287f597bba.png 1080w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/c78ed17c-6e07-43ef-bfda-ae287f597bba-300x149.png 300w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/c78ed17c-6e07-43ef-bfda-ae287f597bba-1024x508.png 1024w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/c78ed17c-6e07-43ef-bfda-ae287f597bba-768x381.png 768w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/c78ed17c-6e07-43ef-bfda-ae287f597bba-18x9.png 18w\" sizes=\"auto, (max-width: 1080px) 100vw, 1080px\" \/><\/figure>\n\n\n\n<p>O experimento usa o DeepSeek-LLM (1,5B e 7B, suportando uma sequ\u00eancia m\u00e1xima de 4096) como modelo b\u00e1sico de linguagem. Para a tarefa de compreens\u00e3o multimodal, SigLIP-Large-Patch16-384 \u00e9 usado como codificador visual, o tamanho do dicion\u00e1rio do codificador \u00e9 16384, o m\u00faltiplo de redu\u00e7\u00e3o da amostragem da imagem \u00e9 16 e os adaptadores de compreens\u00e3o e gera\u00e7\u00e3o s\u00e3o MLPs de duas camadas.<\/p>\n\n\n\n<p>O treinamento do est\u00e1gio II usa uma estrat\u00e9gia de parada antecipada de 270K, todas as imagens s\u00e3o ajustadas uniformemente para uma resolu\u00e7\u00e3o de 384\u00d7384 e o empacotamento da sequ\u00eancia \u00e9 usado para melhorar a efici\u00eancia do treinamento. O Janus-Pro \u00e9 treinado e avaliado usando HAI-LLM. As vers\u00f5es 1.5B\/7B foram treinadas em 16\/32 n\u00f3s (8\u00d7Nvidia A100 40GB por n\u00f3) por 9\/14 dias, respectivamente.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Model_evaluation\"><\/span>Avalia\u00e7\u00e3o do modelo<span class=\"ez-toc-section-end\"><\/span><\/h2>\n\n\n\n<p>O Janus-Pro foi avaliado separadamente na compreens\u00e3o e gera\u00e7\u00e3o multimodal. De modo geral, a compreens\u00e3o pode ser um pouco fraca, mas \u00e9 considerada excelente entre os modelos de c\u00f3digo aberto do mesmo tamanho (suponha que ela seja amplamente limitada pela resolu\u00e7\u00e3o de entrada fixa e pelos recursos de OCR).<\/p>\n\n\n\n<p>O Janus-Pro-7B obteve 79,2 pontos no teste de benchmark MMBench, que est\u00e1 pr\u00f3ximo do n\u00edvel dos modelos de c\u00f3digo aberto de primeira linha (o mesmo tamanho do InternVL2.5 e do Qwen2-VL \u00e9 de cerca de 82 pontos). No entanto, \u00e9 uma boa melhoria em rela\u00e7\u00e3o \u00e0 gera\u00e7\u00e3o anterior do Janus.<\/p>\n\n\n\n<p>Em termos de gera\u00e7\u00e3o de imagens, a melhoria em rela\u00e7\u00e3o \u00e0 gera\u00e7\u00e3o anterior \u00e9 ainda mais significativa e \u00e9 considerada um n\u00edvel excelente entre os modelos de c\u00f3digo aberto. A pontua\u00e7\u00e3o do Janus-Pro no teste de benchmark GenEval (0,80) tamb\u00e9m supera modelos como o DALL-E 3 (0,67) e o Stable Diffusion 3 Medium (0,74).<\/p>\n\n\n\n<figure class=\"wp-block-image\"><img loading=\"lazy\" decoding=\"async\" width=\"1080\" height=\"827\" src=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/47aa92e1-b474-4874-956e-db210da9d349.png\" alt=\"\" class=\"wp-image-853\" srcset=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/47aa92e1-b474-4874-956e-db210da9d349.png 1080w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/47aa92e1-b474-4874-956e-db210da9d349-300x230.png 300w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/47aa92e1-b474-4874-956e-db210da9d349-1024x784.png 1024w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/47aa92e1-b474-4874-956e-db210da9d349-768x588.png 768w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/47aa92e1-b474-4874-956e-db210da9d349-16x12.png 16w\" sizes=\"auto, (max-width: 1080px) 100vw, 1080px\" \/><\/figure>\n\n\n\n<figure class=\"wp-block-image\"><img loading=\"lazy\" decoding=\"async\" width=\"1080\" height=\"744\" src=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/38de369b-7f1f-4159-83a7-5f411e816d55.png\" alt=\"\" class=\"wp-image-855\" srcset=\"https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/38de369b-7f1f-4159-83a7-5f411e816d55.png 1080w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/38de369b-7f1f-4159-83a7-5f411e816d55-300x207.png 300w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/38de369b-7f1f-4159-83a7-5f411e816d55-1024x705.png 1024w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/38de369b-7f1f-4159-83a7-5f411e816d55-768x529.png 768w, https:\/\/janusai.pro\/wp-content\/uploads\/2025\/02\/38de369b-7f1f-4159-83a7-5f411e816d55-18x12.png 18w\" sizes=\"auto, (max-width: 1080px) 100vw, 1080px\" \/><\/figure>","protected":false},"excerpt":{"rendered":"<p>Na v\u00e9spera do Festival da Primavera, o modelo DeepSeek-R1 foi lan\u00e7ado. Com sua arquitetura de RL pura, ele aprendeu com as grandes inova\u00e7\u00f5es do CoT e supera o ChatGPT em matem\u00e1tica, c\u00f3digo e racioc\u00ednio l\u00f3gico. Al\u00e9m disso, seus pesos de modelo de c\u00f3digo aberto, baixos custos de treinamento e pre\u00e7os baratos de API tornaram o DeepSeek um sucesso em toda a Internet, mesmo...<\/p>","protected":false},"author":2,"featured_media":704,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_kadence_starter_templates_imported_post":false,"_kad_post_transparent":"","_kad_post_title":"","_kad_post_layout":"","_kad_post_sidebar_id":"","_kad_post_content_style":"","_kad_post_vertical_padding":"","_kad_post_feature":"","_kad_post_feature_position":"","_kad_post_header":false,"_kad_post_footer":false,"footnotes":""},"categories":[1],"tags":[],"class_list":["post-847","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-uncategorized"],"_links":{"self":[{"href":"https:\/\/janusai.pro\/pt\/wp-json\/wp\/v2\/posts\/847","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/janusai.pro\/pt\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/janusai.pro\/pt\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/janusai.pro\/pt\/wp-json\/wp\/v2\/users\/2"}],"replies":[{"embeddable":true,"href":"https:\/\/janusai.pro\/pt\/wp-json\/wp\/v2\/comments?post=847"}],"version-history":[{"count":1,"href":"https:\/\/janusai.pro\/pt\/wp-json\/wp\/v2\/posts\/847\/revisions"}],"predecessor-version":[{"id":856,"href":"https:\/\/janusai.pro\/pt\/wp-json\/wp\/v2\/posts\/847\/revisions\/856"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/janusai.pro\/pt\/wp-json\/wp\/v2\/media\/704"}],"wp:attachment":[{"href":"https:\/\/janusai.pro\/pt\/wp-json\/wp\/v2\/media?parent=847"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/janusai.pro\/pt\/wp-json\/wp\/v2\/categories?post=847"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/janusai.pro\/pt\/wp-json\/wp\/v2\/tags?post=847"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}