{"id":710,"date":"2025-01-29T12:02:22","date_gmt":"2025-01-29T12:02:22","guid":{"rendered":"https:\/\/janusai.pro\/?p=710"},"modified":"2025-01-29T12:02:40","modified_gmt":"2025-01-29T12:02:40","slug":"deepseek-v3-paper-details-how-to-bypass-the-cuda-monopoly","status":"publish","type":"post","link":"https:\/\/janusai.pro\/pt\/deepseek-v3-paper-details-how-to-bypass-the-cuda-monopoly\/","title":{"rendered":"Detalhes do artigo do DeepSeek V3: Como contornar o monop\u00f3lio da CUDA!"},"content":{"rendered":"<div style=\"margin-top: 0px; margin-bottom: 0px;\" class=\"sharethis-inline-share-buttons\" ><\/div>\n<p><a href=\"https:\/\/www.deepseek.com\/\" target=\"_blank\" rel=\"noreferrer noopener nofollow\">DeepSeek V3<\/a> detalhes do artigo: Como contornar o monop\u00f3lio da CUDA!<\/p>\n\n\n\n<p>Os dois modelos lan\u00e7ados recentemente pela DeepSeek, DeepSeek-V3 e DeepSeek-R1, alcan\u00e7am um desempenho compar\u00e1vel ao de modelos semelhantes da OpenAI a um custo muito menor.<\/p>\n\n\n\n<p>De acordo com relatos da m\u00eddia estrangeira, em apenas dois meses, eles treinaram um modelo de linguagem MoE com 671 bilh\u00f5es de par\u00e2metros em um cluster de 2.048 GPUs H800, o que \u00e9 10 vezes mais eficiente do que a melhor IA.<\/p>\n\n\n\n<p>Esse avan\u00e7o n\u00e3o foi obtido com o uso da CUDA, mas por meio de um grande n\u00famero de otimiza\u00e7\u00f5es refinadas e do uso da programa\u00e7\u00e3o PTX (execu\u00e7\u00e3o paralela de threads) do tipo assembly da NVIDIA.<\/p>\n\n\n\n<p><a href=\"https:\/\/www.deepseek.com\/\" target=\"_blank\" rel=\"noreferrer noopener nofollow\">DeepSeek<\/a> foi for\u00e7ada a seguir um caminho diferente da OpenAI e de outras empresas que dependem do poder de computa\u00e7\u00e3o da for\u00e7a bruta sob restri\u00e7\u00f5es de hardware. Ela usou uma s\u00e9rie de inova\u00e7\u00f5es tecnol\u00f3gicas para reduzir os requisitos de energia do modelo e, ao mesmo tempo, obter ganhos de desempenho.<\/p>\n\n\n\n<figure class=\"wp-block-image\"><img decoding=\"async\" src=\"https:\/\/rmy9ct2fln.feishu.cn\/space\/api\/box\/stream\/download\/asynccode\/?code=ZDM1YTM0ODZkYmQzOWNkNzc2ZTBmNzUwY2ZjOWYxMjZfYnUyVHFsb05ya0c1M0hvMGRUbk9CN3FVekR1ZjlQMEZfVG9rZW46TUtzM2JudThpb1p3NHJ4SlZNeWNWdU10bnNnXzE3MzgxNTE4NjQ6MTczODE1NTQ2NF9WNA\" alt=\"\"\/><\/figure>\n\n\n\n<p>Alguns coment\u00e1rios entusiasmados de internautas:<\/p>\n\n\n\n<p>\"Neste mundo, se h\u00e1 algum grupo de pessoas que seria louco o suficiente para dizer coisas como 'CUDA \u00e9 muito lento!<\/p>\n\n\n\n<figure class=\"wp-block-image\"><img decoding=\"async\" src=\"https:\/\/rmy9ct2fln.feishu.cn\/space\/api\/box\/stream\/download\/asynccode\/?code=OGEyMmE3ZTJkODlkZDlmNjliZTI1MzI5YTE4ZWE3MjdfWWRBam5VTkVaV1ZsMFg3VzVTRjRDZlUzV2ZiSHZYT2RfVG9rZW46VGZsdWJrTzZHb243OUx4bEZsbmNmMFNzblFiXzE3MzgxNTE4NjQ6MTczODE1NTQ2NF9WNA\" alt=\"\"\/><\/figure>\n\n\n\n<figure class=\"wp-block-image\"><img decoding=\"async\" src=\"https:\/\/rmy9ct2fln.feishu.cn\/space\/api\/box\/stream\/download\/asynccode\/?code=NzI1ZTBlMjJkMDI2N2MyMDdkMGI4YmU5OTJjNGM0YzFfZW4xbjVERFdhdGVObHBDUWR3NVZjbDRSM2lrVDlWRGlfVG9rZW46Q2N5MWIxV2ltbzdmZU14VXI2amNuZDk2bmRkXzE3MzgxNTE4NjQ6MTczODE1NTQ2NF9WNA\" alt=\"\"\/><\/figure>\n\n\n\n<figure class=\"wp-block-image\"><img decoding=\"async\" src=\"https:\/\/rmy9ct2fln.feishu.cn\/space\/api\/box\/stream\/download\/asynccode\/?code=MDMyN2YyYjYwYTNkZDhmMmEyYWY2MjMzZGE3MGM1ZmFfM29veUZrRWdYODRGR0JVdWVVTnRoMzVwTWxjV09CT25fVG9rZW46SVE2dGJWek9Mb29jaTJ4ZnkzWWN5bUZWbnVnXzE3MzgxNTE4NjQ6MTczODE1NTQ2NF9WNA\" alt=\"\"\/><\/figure>\n\n\n\n<div id=\"ez-toc-container\" class=\"ez-toc-v2_0_72 counter-hierarchy ez-toc-counter ez-toc-grey ez-toc-container-direction\">\n<div class=\"ez-toc-title-container\">\n<p class=\"ez-toc-title\" style=\"cursor:inherit\">\u00cdndice<\/p>\n<span class=\"ez-toc-title-toggle\"><a href=\"#\" class=\"ez-toc-pull-right ez-toc-btn ez-toc-btn-xs ez-toc-btn-default ez-toc-toggle\" aria-label=\"Alternar tabela de conte\u00fado\"><span class=\"ez-toc-js-icon-con\"><span class=\"\"><span class=\"eztoc-hide\" style=\"display:none;\">Alternar<\/span><span class=\"ez-toc-icon-toggle-span\"><svg style=\"fill: #999;color:#999\" xmlns=\"http:\/\/www.w3.org\/2000\/svg\" class=\"list-377408\" width=\"20px\" height=\"20px\" viewbox=\"0 0 24 24\" fill=\"none\"><path d=\"M6 6H4v2h2V6zm14 0H8v2h12V6zM4 11h2v2H4v-2zm16 0H8v2h12v-2zM4 16h2v2H4v-2zm16 0H8v2h12v-2z\" fill=\"currentColor\"><\/path><\/svg><svg style=\"fill: #999;color:#999\" class=\"arrow-unsorted-368013\" xmlns=\"http:\/\/www.w3.org\/2000\/svg\" width=\"10px\" height=\"10px\" viewbox=\"0 0 24 24\" version=\"1.2\" baseprofile=\"tiny\"><path d=\"M18.2 9.3l-6.2-6.3-6.2 6.3c-.2.2-.3.4-.3.7s.1.5.3.7c.2.2.4.3.7.3h11c.3 0 .5-.1.7-.3.2-.2.3-.5.3-.7s-.1-.5-.3-.7zM5.8 14.7l6.2 6.3 6.2-6.3c.2-.2.3-.5.3-.7s-.1-.5-.3-.7c-.2-.2-.4-.3-.7-.3h-11c-.3 0-.5.1-.7.3-.2.2-.3.5-.3.7s.1.5.3.7z\"\/><\/svg><\/span><\/span><\/span><\/a><\/span><\/div>\n<nav><ul class='ez-toc-list ez-toc-list-level-1' ><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-1\" href=\"https:\/\/janusai.pro\/pt\/deepseek-v3-paper-details-how-to-bypass-the-cuda-monopoly\/#Genius_geeks_fine-tune_PTX_to_maximize_GPU_performance\" title=\"Os geeks geniais ajustam o PTX para maximizar o desempenho da GPU\">Os geeks geniais ajustam o PTX para maximizar o desempenho da GPU<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-2\" href=\"https:\/\/janusai.pro\/pt\/deepseek-v3-paper-details-how-to-bypass-the-cuda-monopoly\/#PTX_and_CUDA\" title=\"PTX e CUDA\">PTX e CUDA<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-3\" href=\"https:\/\/janusai.pro\/pt\/deepseek-v3-paper-details-how-to-bypass-the-cuda-monopoly\/#However_the_technical_barriers_remain\" title=\"No entanto, as barreiras t\u00e9cnicas permanecem\">No entanto, as barreiras t\u00e9cnicas permanecem<\/a><\/li><\/ul><\/nav><\/div>\n<h2 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Genius_geeks_fine-tune_PTX_to_maximize_GPU_performance\"><\/span>Os geeks geniais ajustam o PTX para maximizar o desempenho da GPU<span class=\"ez-toc-section-end\"><\/span><\/h2>\n\n\n\n<p>A NVIDIA PTX (Parallel Thread Execution) \u00e9 uma arquitetura de conjunto de instru\u00e7\u00f5es intermedi\u00e1rias projetada especificamente para suas GPUs, situada entre linguagens de programa\u00e7\u00e3o de GPU de alto n\u00edvel (como CUDA C\/C++) ou outros front-ends de linguagem e c\u00f3digo de m\u00e1quina de baixo n\u00edvel (streaming assembly ou SASS).<\/p>\n\n\n\n<p>O PTX \u00e9 uma arquitetura de conjunto de instru\u00e7\u00f5es de baixo n\u00edvel que apresenta a GPU como um dispositivo de computa\u00e7\u00e3o paralela de dados, permitindo otimiza\u00e7\u00f5es refinadas, como aloca\u00e7\u00e3o de registros e ajuste de n\u00edvel de thread\/thread-bundle, que n\u00e3o s\u00e3o poss\u00edveis com linguagens como CUDA C\/C++.<\/p>\n\n\n\n<p>Quando o PTX \u00e9 convertido em SASS, ele \u00e9 otimizado para uma gera\u00e7\u00e3o espec\u00edfica de GPUs NVIDIA.<\/p>\n\n\n\n<figure class=\"wp-block-image\"><img decoding=\"async\" src=\"https:\/\/rmy9ct2fln.feishu.cn\/space\/api\/box\/stream\/download\/asynccode\/?code=MGIwZTQ0ZDdhMTgxYTBlMmEzZDE5OTczN2ZlZmEzNGFfc3I3T2U0UzNCOGdjd1ZHcktHd1hkd1RpcXlLbkxrU1FfVG9rZW46Vk05WWJ0a1Bob3NkYzl4bXpFc2N6anI3bktjXzE3MzgxNTE4NjQ6MTczODE1NTQ2NF9WNA\" alt=\"\"\/><\/figure>\n\n\n\n<p>Ao treinar o modelo V3, o DeepSeek reconfigurou a GPU NVIDIA H800:<\/p>\n\n\n\n<p>Dos 132 n\u00facleos do processador de fluxo, 20 foram alocados para comunica\u00e7\u00e3o entre servidores, principalmente para compacta\u00e7\u00e3o e descompacta\u00e7\u00e3o de dados, para romper o limite de conex\u00e3o do processador e melhorar a velocidade de processamento das transa\u00e7\u00f5es.<\/p>\n\n\n\n<p>Para maximizar o desempenho, o DeepSeek tamb\u00e9m implementou algoritmos avan\u00e7ados de pipelining por meio de ajustes adicionais de n\u00edvel de pacote de thread\/thread de granula\u00e7\u00e3o fina.<\/p>\n\n\n\n<p>Essas otimiza\u00e7\u00f5es v\u00e3o muito al\u00e9m do n\u00edvel de desenvolvimento CUDA convencional, mas s\u00e3o extremamente dif\u00edceis de manter. No entanto, esse n\u00edvel de otimiza\u00e7\u00e3o \u00e9 exatamente o que demonstra plenamente os excelentes recursos t\u00e9cnicos da equipe do DeepSeek.<\/p>\n\n\n\n<figure class=\"wp-block-image\"><img decoding=\"async\" src=\"https:\/\/rmy9ct2fln.feishu.cn\/space\/api\/box\/stream\/download\/asynccode\/?code=MDk2ZDMyM2IzOGU5OWNmN2JhOTY2ZDZmMjhkOWYwZGFfUnFiV0hvbnQ0ZUFHSHg3WHpyMW5jYTRvMURPM1pDSTZfVG9rZW46QnZVNWJyUzBDb2FWeE54Ym4ybGNZNXlnbmFnXzE3MzgxNTE4NjQ6MTczODE1NTQ2NF9WNA\" alt=\"\"\/><\/figure>\n\n\n\n<p>O documento V3 menciona especificamente detalhes sobre o PTX<\/p>\n\n\n\n<p>Isso se deve ao fato de que, sob a dupla press\u00e3o da escassez global de GPUs e das restri\u00e7\u00f5es dos EUA, empresas como a DeepSeek tiveram que buscar solu\u00e7\u00f5es inovadoras.<\/p>\n\n\n\n<p>Felizmente, eles fizeram avan\u00e7os significativos nessa \u00e1rea.<\/p>\n\n\n\n<p>Um desenvolvedor acredita que \"a programa\u00e7\u00e3o de baixo n\u00edvel da GPU \u00e9 a dire\u00e7\u00e3o certa. Quanto mais otimiza\u00e7\u00e3o, menor o custo ou o or\u00e7amento de desempenho que pode ser usado para outros progressos sem gastos adicionais\".<\/p>\n\n\n\n<figure class=\"wp-block-image\"><img decoding=\"async\" src=\"https:\/\/rmy9ct2fln.feishu.cn\/space\/api\/box\/stream\/download\/asynccode\/?code=MmEzYzA5ZTVmNjE4ZTlhMWE0NWU1ZTgyZTA2NmUxMDJfUWdNb21QeEFtUWlFSFA1aGFWZEZJMzlUNjdPT3J5NXRfVG9rZW46RWtaaGJ2UlBHbzk2VWF4TmxkeGNPeGdKblJnXzE3MzgxNTE4NjQ6MTczODE1NTQ2NF9WNA\" alt=\"\"\/><\/figure>\n\n\n\n<p>Esse avan\u00e7o teve um impacto significativo no mercado, e alguns investidores acreditam que o novo modelo reduzir\u00e1 a demanda por hardware de alto desempenho, o que pode afetar o desempenho das vendas de empresas como a NVIDIA.<\/p>\n\n\n\n<p>No entanto, os veteranos do setor, incluindo o ex-CEO da Intel, Pat Gelsinger, acreditam que os aplicativos de IA podem fazer uso total de todo o poder de computa\u00e7\u00e3o dispon\u00edvel.<\/p>\n\n\n\n<p>Gelsinger v\u00ea esse avan\u00e7o da DeepSeek como uma nova maneira de incorporar recursos de IA em dispositivos de baixo custo para o mercado de massa.<\/p>\n\n\n\n<figure class=\"wp-block-image\"><img decoding=\"async\" src=\"https:\/\/rmy9ct2fln.feishu.cn\/space\/api\/box\/stream\/download\/asynccode\/?code=NzgzZjM2ZTVlOWM0OWI1MDE5OTI1NTQwNWRjYTI5Y2NfZ25sc2tPNFJ1UHZwemp1WEVlclU1cloxZXI5aHJMbEZfVG9rZW46SHlGTGJnNHpHbzNzbnd4bkxPQ2N4T0RyblZkXzE3MzgxNTE4NjQ6MTczODE1NTQ2NF9WNA\" alt=\"\"\/><\/figure>\n\n\n\n<h2 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"PTX_and_CUDA\"><\/span>PTX e CUDA<span class=\"ez-toc-section-end\"><\/span><\/h2>\n\n\n\n<p>Ent\u00e3o, a chegada do DeepSeek significa que o desenvolvimento de LLM de ponta n\u00e3o precisa mais de clusters de GPU em grande escala?<\/p>\n\n\n\n<p>Ser\u00e1 que os enormes investimentos em recursos de computa\u00e7\u00e3o pelo Google, <a href=\"https:\/\/openai.com\/\" target=\"_blank\" rel=\"noreferrer noopener nofollow\">OpenAI<\/a>O Meta e a xAI acabam sendo desperdi\u00e7ados? O consenso geral entre os desenvolvedores de IA \u00e9 que esse n\u00e3o \u00e9 o caso.<\/p>\n\n\n\n<p>No entanto, \u00e9 certo que ainda h\u00e1 um enorme potencial a ser explorado em termos de processamento de dados e otimiza\u00e7\u00e3o de algoritmos, e certamente surgir\u00e3o m\u00e9todos de otimiza\u00e7\u00e3o mais inovadores no futuro.<\/p>\n\n\n\n<p>Com o modelo V3 do DeepSeek de c\u00f3digo aberto, os detalhes s\u00e3o divulgados em detalhes em seu relat\u00f3rio t\u00e9cnico.<\/p>\n\n\n\n<p>O relat\u00f3rio documenta as profundas otimiza\u00e7\u00f5es subjacentes realizadas pelo DeepSeek. Em resumo, o grau de otimiza\u00e7\u00e3o pode ser resumido como \"eles reconstru\u00edram todo o sistema a partir do zero\".<\/p>\n\n\n\n<p>Como mencionado acima, ao treinar o V3 usando a GPU H800, o DeepSeek personalizou as unidades de computa\u00e7\u00e3o principais da GPU (n\u00facleos de multiprocessador de streaming, ou SMs) para atender a necessidades espec\u00edficas.<\/p>\n\n\n\n<p>Do total de 132 SMs, eles alocaram 20 especificamente para lidar com tarefas de comunica\u00e7\u00e3o entre servidores em vez de tarefas de computa\u00e7\u00e3o.<\/p>\n\n\n\n<p>Essa personaliza\u00e7\u00e3o \u00e9 feita no n\u00edvel PTX (execu\u00e7\u00e3o de thread paralelo), que \u00e9 o conjunto de instru\u00e7\u00f5es de baixo n\u00edvel da GPU NVIDIA.<\/p>\n\n\n\n<p>O PTX \u00e9 executado em um n\u00edvel pr\u00f3ximo ao da linguagem assembly e permite otimiza\u00e7\u00f5es refinadas, como aloca\u00e7\u00e3o de registros e ajuste de n\u00edvel de thread\/thread-bundle. No entanto, esse controle fino \u00e9 complexo e dif\u00edcil de manter.<\/p>\n\n\n\n<p>\u00c9 por isso que os desenvolvedores geralmente preferem usar linguagens de programa\u00e7\u00e3o de alto n\u00edvel, como a CUDA, que oferece otimiza\u00e7\u00f5es de desempenho suficientes para a maioria das tarefas de programa\u00e7\u00e3o paralela e elimina a necessidade de otimiza\u00e7\u00f5es de baixo n\u00edvel.<\/p>\n\n\n\n<p>No entanto, quando se trata de maximizar a efici\u00eancia dos recursos da GPU e atingir requisitos de otimiza\u00e7\u00e3o espec\u00edficos, os desenvolvedores precisam recorrer ao PTX.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"However_the_technical_barriers_remain\"><\/span>No entanto, as barreiras t\u00e9cnicas permanecem<span class=\"ez-toc-section-end\"><\/span><\/h2>\n\n\n\n<p>A esse respeito, o usu\u00e1rio da Internet Ian Cutress disse: \"O uso do PTX pelo Deepseek n\u00e3o elimina as barreiras t\u00e9cnicas do CUDA\".<\/p>\n\n\n\n<figure class=\"wp-block-image\"><img decoding=\"async\" src=\"https:\/\/rmy9ct2fln.feishu.cn\/space\/api\/box\/stream\/download\/asynccode\/?code=YTFkNWFkMTNiYjQzNDZiMDI3ZmYxYjA3MzExYjE1MGRfemNRaFdmM1R4MTMwUWVWTUxxbHN2SjZYNEhvazBrZlNfVG9rZW46SFlEU2IwNEd3b29kMGl4cmVaOGNTcHFZbmxjXzE3MzgxNTE4NjQ6MTczODE1NTQ2NF9WNA\" alt=\"\"\/><\/figure>\n\n\n\n<p>CUDA \u00e9 uma linguagem de alto n\u00edvel. Ela facilita o desenvolvimento de bibliotecas e interfaces com GPUs NVIDIA e oferece suporte ao desenvolvimento iterativo r\u00e1pido.<\/p>\n\n\n\n<p>A CUDA pode otimizar o desempenho por meio do ajuste fino do c\u00f3digo subjacente (ou seja, PTX), e as bibliotecas b\u00e1sicas j\u00e1 est\u00e3o completas. Atualmente, a maioria dos softwares em n\u00edvel de produ\u00e7\u00e3o \u00e9 desenvolvida em CUDA.<\/p>\n\n\n\n<p>O PTX \u00e9 mais semelhante a uma linguagem de montagem diretamente compreens\u00edvel para a GPU. Ela funciona em um n\u00edvel baixo e permite a otimiza\u00e7\u00e3o em n\u00edvel micro.<\/p>\n\n\n\n<p>Se voc\u00ea optar por programar em PTX, isso significa que nenhuma das bibliotecas CUDA integradas mencionadas anteriormente poder\u00e1 ser usada. Essa \u00e9 uma tarefa muito tediosa que requer conhecimento profundo em quest\u00f5es de hardware e tempo de execu\u00e7\u00e3o.<\/p>\n\n\n\n<p>No entanto, se os desenvolvedores entenderem completamente o que est\u00e3o fazendo, eles poder\u00e3o, de fato, obter melhor desempenho e otimiza\u00e7\u00e3o no tempo de execu\u00e7\u00e3o.<\/p>\n\n\n\n<figure class=\"wp-block-image\"><img decoding=\"async\" src=\"https:\/\/rmy9ct2fln.feishu.cn\/space\/api\/box\/stream\/download\/asynccode\/?code=MGU3N2MyY2Y5NDg0MzAxYjkzNzI4MDg3YTRjN2JiNjJfSTI4Um5wZkxwamJMNjRLdmx6TnFmcTlhVDhLbTEyYlhfVG9rZW46SVpVcWJ4TmRtbzdYRjF4RFk5SWN4OWdjbmRlXzE3MzgxNTE4NjQ6MTczODE1NTQ2NF9WNA\" alt=\"\"\/><\/figure>\n\n\n\n<p>Atualmente, o principal elemento do ecossistema da NVIDIA ainda \u00e9 o uso de CUDA.<\/p>\n\n\n\n<p>Os desenvolvedores que desejam obter um desempenho extra de 10-20% ou efici\u00eancia energ\u00e9tica de sua carga computacional, como empresas que implantam modelos na nuvem e vendem servi\u00e7os de token, de fato otimizaram do n\u00edvel CUDA para o n\u00edvel PTX. Elas est\u00e3o dispostas a investir tempo porque vale a pena no longo prazo.<\/p>\n\n\n\n<p>Deve-se observar que o PTX geralmente \u00e9 otimizado para um modelo de hardware espec\u00edfico e \u00e9 dif\u00edcil de ser transferido entre diferentes hardwares, a menos que a l\u00f3gica de adapta\u00e7\u00e3o seja especialmente escrita.<\/p>\n\n\n\n<p>Al\u00e9m disso, o ajuste manual do kernel de computa\u00e7\u00e3o exige muita perseveran\u00e7a, coragem e uma capacidade especial de manter a calma, pois o programa pode apresentar um erro de acesso \u00e0 mem\u00f3ria a cada 5.000 ciclos.<\/p>\n\n\n\n<p>\u00c9 claro que, para os cen\u00e1rios em que a PTX \u00e9 realmente necess\u00e1ria e para os desenvolvedores que s\u00e3o pagos o suficiente para lidar com esses problemas, expressamos nossa total compreens\u00e3o e respeito.<\/p>\n\n\n\n<p>Para todos os outros desenvolvedores, \u00e9 recomend\u00e1vel continuar usando CUDA ou outras variantes avan\u00e7adas baseadas em CUDA (ou MLIR).<\/p>","protected":false},"excerpt":{"rendered":"<p>Detalhes do artigo do DeepSeek V3: Como contornar o monop\u00f3lio da CUDA! Os dois modelos lan\u00e7ados recentemente pela DeepSeek, DeepSeek-V3 e DeepSeek-R1, alcan\u00e7am desempenho compar\u00e1vel ao de modelos semelhantes da OpenAI a um custo muito menor. De acordo com relatos da m\u00eddia estrangeira, em apenas dois meses, eles treinaram um modelo de linguagem MoE com 671 bilh\u00f5es de par\u00e2metros em um cluster de 2.048...<\/p>","protected":false},"author":2,"featured_media":684,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_kadence_starter_templates_imported_post":false,"_kad_post_transparent":"","_kad_post_title":"","_kad_post_layout":"","_kad_post_sidebar_id":"","_kad_post_content_style":"","_kad_post_vertical_padding":"","_kad_post_feature":"","_kad_post_feature_position":"","_kad_post_header":false,"_kad_post_footer":false,"footnotes":""},"categories":[1],"tags":[],"class_list":["post-710","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-uncategorized"],"_links":{"self":[{"href":"https:\/\/janusai.pro\/pt\/wp-json\/wp\/v2\/posts\/710","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/janusai.pro\/pt\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/janusai.pro\/pt\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/janusai.pro\/pt\/wp-json\/wp\/v2\/users\/2"}],"replies":[{"embeddable":true,"href":"https:\/\/janusai.pro\/pt\/wp-json\/wp\/v2\/comments?post=710"}],"version-history":[{"count":1,"href":"https:\/\/janusai.pro\/pt\/wp-json\/wp\/v2\/posts\/710\/revisions"}],"predecessor-version":[{"id":711,"href":"https:\/\/janusai.pro\/pt\/wp-json\/wp\/v2\/posts\/710\/revisions\/711"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/janusai.pro\/pt\/wp-json\/wp\/v2\/media\/684"}],"wp:attachment":[{"href":"https:\/\/janusai.pro\/pt\/wp-json\/wp\/v2\/media?parent=710"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/janusai.pro\/pt\/wp-json\/wp\/v2\/categories?post=710"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/janusai.pro\/pt\/wp-json\/wp\/v2\/tags?post=710"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}