{"id":710,"date":"2025-01-29T12:02:22","date_gmt":"2025-01-29T12:02:22","guid":{"rendered":"https:\/\/janusai.pro\/?p=710"},"modified":"2025-01-29T12:02:40","modified_gmt":"2025-01-29T12:02:40","slug":"deepseek-v3-paper-details-how-to-bypass-the-cuda-monopoly","status":"publish","type":"post","link":"https:\/\/janusai.pro\/fr\/deepseek-v3-paper-details-how-to-bypass-the-cuda-monopoly\/","title":{"rendered":"D\u00e9tails du document DeepSeek V3 : Comment contourner le monopole de CUDA !"},"content":{"rendered":"<div style=\"margin-top: 0px; margin-bottom: 0px;\" class=\"sharethis-inline-share-buttons\" ><\/div>\n<p><a href=\"https:\/\/www.deepseek.com\/\" target=\"_blank\" rel=\"noreferrer noopener nofollow\">DeepSeek V3<\/a> d\u00e9tails de l'article : Comment contourner le monopole de CUDA !<\/p>\n\n\n\n<p>Les deux mod\u00e8les r\u00e9cemment lanc\u00e9s par DeepSeek, DeepSeek-V3 et DeepSeek-R1, atteignent des performances comparables \u00e0 celles des mod\u00e8les similaires d'OpenAI pour un co\u00fbt nettement inf\u00e9rieur.<\/p>\n\n\n\n<p>Selon les m\u00e9dias \u00e9trangers, en seulement deux mois, ils ont form\u00e9 un mod\u00e8le linguistique MoE avec 671 milliards de param\u00e8tres sur une grappe de 2 048 GPU H800, ce qui est 10 fois plus efficace que l'IA la plus performante.<\/p>\n\n\n\n<p>Cette avanc\u00e9e n'a pas \u00e9t\u00e9 r\u00e9alis\u00e9e avec CUDA, mais gr\u00e2ce \u00e0 un grand nombre d'optimisations fines et \u00e0 l'utilisation de la programmation PTX (parallel thread execution) de NVIDIA, semblable \u00e0 l'assemblage.<\/p>\n\n\n\n<p><a href=\"https:\/\/www.deepseek.com\/\" target=\"_blank\" rel=\"noreferrer noopener nofollow\">DeepSeek<\/a> a \u00e9t\u00e9 contrainte d'emprunter une voie diff\u00e9rente de celle d'OpenAI et d'autres entreprises qui s'appuient sur la puissance de calcul brute dans le cadre de contraintes mat\u00e9rielles. Elle a eu recours \u00e0 une s\u00e9rie d'innovations technologiques pour r\u00e9duire les besoins en \u00e9nergie du mod\u00e8le tout en r\u00e9alisant des gains de performance.<\/p>\n\n\n\n<figure class=\"wp-block-image\"><img decoding=\"async\" src=\"https:\/\/rmy9ct2fln.feishu.cn\/space\/api\/box\/stream\/download\/asynccode\/?code=ZDM1YTM0ODZkYmQzOWNkNzc2ZTBmNzUwY2ZjOWYxMjZfYnUyVHFsb05ya0c1M0hvMGRUbk9CN3FVekR1ZjlQMEZfVG9rZW46TUtzM2JudThpb1p3NHJ4SlZNeWNWdU10bnNnXzE3MzgxNTE4NjQ6MTczODE1NTQ2NF9WNA\" alt=\"\"\/><\/figure>\n\n\n\n<p>Quelques commentaires enthousiastes de la part des internautes :<\/p>\n\n\n\n<p>Dans ce monde, s'il existe des groupes de personnes assez folles pour dire des choses comme \"CUDA est trop lent !<\/p>\n\n\n\n<figure class=\"wp-block-image\"><img decoding=\"async\" src=\"https:\/\/rmy9ct2fln.feishu.cn\/space\/api\/box\/stream\/download\/asynccode\/?code=OGEyMmE3ZTJkODlkZDlmNjliZTI1MzI5YTE4ZWE3MjdfWWRBam5VTkVaV1ZsMFg3VzVTRjRDZlUzV2ZiSHZYT2RfVG9rZW46VGZsdWJrTzZHb243OUx4bEZsbmNmMFNzblFiXzE3MzgxNTE4NjQ6MTczODE1NTQ2NF9WNA\" alt=\"\"\/><\/figure>\n\n\n\n<figure class=\"wp-block-image\"><img decoding=\"async\" src=\"https:\/\/rmy9ct2fln.feishu.cn\/space\/api\/box\/stream\/download\/asynccode\/?code=NzI1ZTBlMjJkMDI2N2MyMDdkMGI4YmU5OTJjNGM0YzFfZW4xbjVERFdhdGVObHBDUWR3NVZjbDRSM2lrVDlWRGlfVG9rZW46Q2N5MWIxV2ltbzdmZU14VXI2amNuZDk2bmRkXzE3MzgxNTE4NjQ6MTczODE1NTQ2NF9WNA\" alt=\"\"\/><\/figure>\n\n\n\n<figure class=\"wp-block-image\"><img decoding=\"async\" src=\"https:\/\/rmy9ct2fln.feishu.cn\/space\/api\/box\/stream\/download\/asynccode\/?code=MDMyN2YyYjYwYTNkZDhmMmEyYWY2MjMzZGE3MGM1ZmFfM29veUZrRWdYODRGR0JVdWVVTnRoMzVwTWxjV09CT25fVG9rZW46SVE2dGJWek9Mb29jaTJ4ZnkzWWN5bUZWbnVnXzE3MzgxNTE4NjQ6MTczODE1NTQ2NF9WNA\" alt=\"\"\/><\/figure>\n\n\n\n<div id=\"ez-toc-container\" class=\"ez-toc-v2_0_82_2 counter-hierarchy ez-toc-counter ez-toc-grey ez-toc-container-direction\">\n<div class=\"ez-toc-title-container\">\n<p class=\"ez-toc-title\" style=\"cursor:inherit\">Table des mati\u00e8res<\/p>\n<span class=\"ez-toc-title-toggle\"><a href=\"#\" class=\"ez-toc-pull-right ez-toc-btn ez-toc-btn-xs ez-toc-btn-default ez-toc-toggle\" aria-label=\"Toggle Table des mati\u00e8res\"><span class=\"ez-toc-js-icon-con\"><span class=\"\"><span class=\"eztoc-hide\" style=\"display:none;\">Toggle<\/span><span class=\"ez-toc-icon-toggle-span\"><svg style=\"fill: #999;color:#999\" xmlns=\"http:\/\/www.w3.org\/2000\/svg\" class=\"list-377408\" width=\"20px\" height=\"20px\" viewbox=\"0 0 24 24\" fill=\"none\"><path d=\"M6 6H4v2h2V6zm14 0H8v2h12V6zM4 11h2v2H4v-2zm16 0H8v2h12v-2zM4 16h2v2H4v-2zm16 0H8v2h12v-2z\" fill=\"currentColor\"><\/path><\/svg><svg style=\"fill: #999;color:#999\" class=\"arrow-unsorted-368013\" xmlns=\"http:\/\/www.w3.org\/2000\/svg\" width=\"10px\" height=\"10px\" viewbox=\"0 0 24 24\" version=\"1.2\" baseprofile=\"tiny\"><path d=\"M18.2 9.3l-6.2-6.3-6.2 6.3c-.2.2-.3.4-.3.7s.1.5.3.7c.2.2.4.3.7.3h11c.3 0 .5-.1.7-.3.2-.2.3-.5.3-.7s-.1-.5-.3-.7zM5.8 14.7l6.2 6.3 6.2-6.3c.2-.2.3-.5.3-.7s-.1-.5-.3-.7c-.2-.2-.4-.3-.7-.3h-11c-.3 0-.5.1-.7.3-.2.2-.3.5-.3.7s.1.5.3.7z\"\/><\/svg><\/span><\/span><\/span><\/a><\/span><\/div>\n<nav><ul class='ez-toc-list ez-toc-list-level-1' ><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-1\" href=\"https:\/\/janusai.pro\/fr\/deepseek-v3-paper-details-how-to-bypass-the-cuda-monopoly\/#Genius_geeks_fine-tune_PTX_to_maximize_GPU_performance\" >Les g\u00e9nies peaufinent le PTX pour maximiser les performances du GPU<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-2\" href=\"https:\/\/janusai.pro\/fr\/deepseek-v3-paper-details-how-to-bypass-the-cuda-monopoly\/#PTX_and_CUDA\" >PTX et CUDA<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-3\" href=\"https:\/\/janusai.pro\/fr\/deepseek-v3-paper-details-how-to-bypass-the-cuda-monopoly\/#However_the_technical_barriers_remain\" >Toutefois, les obstacles techniques demeurent<\/a><\/li><\/ul><\/nav><\/div>\n<h2 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Genius_geeks_fine-tune_PTX_to_maximize_GPU_performance\"><\/span>Les g\u00e9nies peaufinent le PTX pour maximiser les performances du GPU<span class=\"ez-toc-section-end\"><\/span><\/h2>\n\n\n\n<p>NVIDIA PTX (Parallel Thread Execution) est une architecture de jeu d'instructions interm\u00e9diaire con\u00e7ue sp\u00e9cifiquement pour ses GPU, qui se situe entre les langages de programmation GPU de haut niveau (tels que CUDA C\/C++) ou d'autres langages frontaux et le code machine de bas niveau (assemblage en continu ou SASS).<\/p>\n\n\n\n<p>PTX est une architecture de jeu d'instructions de bas niveau qui pr\u00e9sente le GPU comme un dispositif de calcul parall\u00e8le de donn\u00e9es, permettant des optimisations fines telles que l'allocation de registres et le r\u00e9glage au niveau du thread\/thread-bundle qui ne sont pas possibles avec des langages tels que CUDA C\/C++.<\/p>\n\n\n\n<p>Lorsque PTX est converti en SASS, il est optimis\u00e9 pour une g\u00e9n\u00e9ration sp\u00e9cifique de GPU NVIDIA.<\/p>\n\n\n\n<figure class=\"wp-block-image\"><img decoding=\"async\" src=\"https:\/\/rmy9ct2fln.feishu.cn\/space\/api\/box\/stream\/download\/asynccode\/?code=MGIwZTQ0ZDdhMTgxYTBlMmEzZDE5OTczN2ZlZmEzNGFfc3I3T2U0UzNCOGdjd1ZHcktHd1hkd1RpcXlLbkxrU1FfVG9rZW46Vk05WWJ0a1Bob3NkYzl4bXpFc2N6anI3bktjXzE3MzgxNTE4NjQ6MTczODE1NTQ2NF9WNA\" alt=\"\"\/><\/figure>\n\n\n\n<p>Lors de l'entra\u00eenement du mod\u00e8le V3, DeepSeek a reconfigur\u00e9 le GPU NVIDIA H800 :<\/p>\n\n\n\n<p>Sur les 132 c\u0153urs du processeur de flux, 20 ont \u00e9t\u00e9 allou\u00e9s \u00e0 la communication inter-serveurs, principalement pour la compression et la d\u00e9compression des donn\u00e9es, afin de d\u00e9passer la limite de connexion du processeur et d'am\u00e9liorer la vitesse de traitement des transactions.<\/p>\n\n\n\n<p>Pour maximiser les performances, DeepSeek a \u00e9galement mis en \u0153uvre des algorithmes avanc\u00e9s de pipelining par le biais d'ajustements suppl\u00e9mentaires au niveau du faisceau de threads\/threads \u00e0 grain fin.<\/p>\n\n\n\n<p>Ces optimisations vont bien au-del\u00e0 du niveau de d\u00e9veloppement CUDA conventionnel, mais sont extr\u00eamement difficiles \u00e0 maintenir. Cependant, ce niveau d'optimisation est pr\u00e9cis\u00e9ment ce qui d\u00e9montre pleinement les capacit\u00e9s techniques exceptionnelles de l'\u00e9quipe DeepSeek.<\/p>\n\n\n\n<figure class=\"wp-block-image\"><img decoding=\"async\" src=\"https:\/\/rmy9ct2fln.feishu.cn\/space\/api\/box\/stream\/download\/asynccode\/?code=MDk2ZDMyM2IzOGU5OWNmN2JhOTY2ZDZmMjhkOWYwZGFfUnFiV0hvbnQ0ZUFHSHg3WHpyMW5jYTRvMURPM1pDSTZfVG9rZW46QnZVNWJyUzBDb2FWeE54Ym4ybGNZNXlnbmFnXzE3MzgxNTE4NjQ6MTczODE1NTQ2NF9WNA\" alt=\"\"\/><\/figure>\n\n\n\n<p>Le document V3 mentionne sp\u00e9cifiquement des d\u00e9tails sur le PTX<\/p>\n\n\n\n<p>En effet, sous la double pression d'une p\u00e9nurie mondiale de GPU et des restrictions impos\u00e9es par les \u00c9tats-Unis, des entreprises telles que DeepSeek ont d\u00fb chercher des solutions innovantes.<\/p>\n\n\n\n<p>Heureusement, ils ont r\u00e9alis\u00e9 des avanc\u00e9es significatives dans ce domaine.<\/p>\n\n\n\n<p>Un d\u00e9veloppeur estime que \"la programmation GPU de bas niveau est la bonne direction. Plus l'optimisation est importante, plus le co\u00fbt est faible, ou le budget de performance qui peut \u00eatre utilis\u00e9 pour d'autres progr\u00e8s sans d\u00e9penses suppl\u00e9mentaires\".<\/p>\n\n\n\n<figure class=\"wp-block-image\"><img decoding=\"async\" src=\"https:\/\/rmy9ct2fln.feishu.cn\/space\/api\/box\/stream\/download\/asynccode\/?code=MmEzYzA5ZTVmNjE4ZTlhMWE0NWU1ZTgyZTA2NmUxMDJfUWdNb21QeEFtUWlFSFA1aGFWZEZJMzlUNjdPT3J5NXRfVG9rZW46RWtaaGJ2UlBHbzk2VWF4TmxkeGNPeGdKblJnXzE3MzgxNTE4NjQ6MTczODE1NTQ2NF9WNA\" alt=\"\"\/><\/figure>\n\n\n\n<p>Cette perc\u00e9e a eu un impact significatif sur le march\u00e9, et certains investisseurs pensent que le nouveau mod\u00e8le r\u00e9duira la demande de mat\u00e9riel de haute performance, ce qui pourrait affecter les performances de vente d'entreprises telles que NVIDIA.<\/p>\n\n\n\n<p>Toutefois, des v\u00e9t\u00e9rans de l'industrie, dont l'ancien PDG d'Intel Pat Gelsinger, estiment que les applications d'IA peuvent utiliser pleinement toute la puissance de calcul disponible.<\/p>\n\n\n\n<p>M. Gelsinger voit dans cette perc\u00e9e de DeepSeek un nouveau moyen d'int\u00e9grer des capacit\u00e9s d'IA dans des appareils bon march\u00e9 destin\u00e9s au march\u00e9 de masse.<\/p>\n\n\n\n<figure class=\"wp-block-image\"><img decoding=\"async\" src=\"https:\/\/rmy9ct2fln.feishu.cn\/space\/api\/box\/stream\/download\/asynccode\/?code=NzgzZjM2ZTVlOWM0OWI1MDE5OTI1NTQwNWRjYTI5Y2NfZ25sc2tPNFJ1UHZwemp1WEVlclU1cloxZXI5aHJMbEZfVG9rZW46SHlGTGJnNHpHbzNzbnd4bkxPQ2N4T0RyblZkXzE3MzgxNTE4NjQ6MTczODE1NTQ2NF9WNA\" alt=\"\"\/><\/figure>\n\n\n\n<h2 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"PTX_and_CUDA\"><\/span>PTX et CUDA<span class=\"ez-toc-section-end\"><\/span><\/h2>\n\n\n\n<p>L'arriv\u00e9e de DeepSeek signifie-t-elle que le d\u00e9veloppement de LLM de pointe ne n\u00e9cessite plus de grands clusters de GPU ?<\/p>\n\n\n\n<p>Les \u00e9normes investissements en ressources informatiques de Google, <a href=\"https:\/\/openai.com\/\" target=\"_blank\" rel=\"noreferrer noopener nofollow\">OpenAI<\/a>L'intelligence artificielle, Meta et xAI sont-elles en fin de compte vou\u00e9es \u00e0 l'\u00e9chec ? Le consensus g\u00e9n\u00e9ral parmi les d\u00e9veloppeurs d'IA est que ce n'est pas le cas.<\/p>\n\n\n\n<p>Cependant, il est certain qu'il existe encore un \u00e9norme potentiel \u00e0 exploiter en termes de traitement des donn\u00e9es et d'optimisation des algorithmes, et que des m\u00e9thodes d'optimisation plus innovantes verront certainement le jour \u00e0 l'avenir.<\/p>\n\n\n\n<p>Le mod\u00e8le V3 de DeepSeek \u00e9tant en source ouverte, les d\u00e9tails sont divulgu\u00e9s en d\u00e9tail dans son rapport technique.<\/p>\n\n\n\n<p>Le rapport documente les profondes optimisations sous-jacentes r\u00e9alis\u00e9es par DeepSeek. En bref, le degr\u00e9 d'optimisation peut \u00eatre r\u00e9sum\u00e9 comme suit : \"ils ont reconstruit le syst\u00e8me entier \u00e0 partir de la base\".<\/p>\n\n\n\n<p>Comme indiqu\u00e9 plus haut, lors de l'entra\u00eenement du V3 \u00e0 l'aide du GPU H800, DeepSeek a personnalis\u00e9 les unit\u00e9s de calcul du GPU (c\u0153urs multiprocesseurs en continu, ou SM) pour r\u00e9pondre \u00e0 des besoins sp\u00e9cifiques.<\/p>\n\n\n\n<p>Sur un total de 132 SM, 20 ont \u00e9t\u00e9 sp\u00e9cifiquement affect\u00e9s \u00e0 des t\u00e2ches de communication entre serveurs plut\u00f4t qu'\u00e0 des t\u00e2ches de calcul.<\/p>\n\n\n\n<p>Cette personnalisation s'effectue au niveau du PTX (parallel thread execution), qui est le jeu d'instructions de bas niveau du GPU NVIDIA.<\/p>\n\n\n\n<p>PTX fonctionne \u00e0 un niveau proche du langage d'assemblage et permet des optimisations fines telles que l'allocation de registres et l'ajustement au niveau du thread\/thread-bundle. Cependant, ce contr\u00f4le fin est complexe et difficile \u00e0 maintenir.<\/p>\n\n\n\n<p>C'est pourquoi les d\u00e9veloppeurs pr\u00e9f\u00e8rent g\u00e9n\u00e9ralement utiliser des langages de programmation de haut niveau tels que CUDA, qui fournissent des optimisations de performance suffisantes pour la plupart des t\u00e2ches de programmation parall\u00e8le et \u00e9liminent le besoin d'optimisations de bas niveau.<\/p>\n\n\n\n<p>Cependant, lorsqu'il s'agit de maximiser l'efficacit\u00e9 des ressources GPU et de r\u00e9pondre \u00e0 des exigences d'optimisation sp\u00e9cifiques, les d\u00e9veloppeurs doivent recourir au PTX.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"However_the_technical_barriers_remain\"><\/span>Toutefois, les obstacles techniques demeurent<span class=\"ez-toc-section-end\"><\/span><\/h2>\n\n\n\n<p>\u00c0 cet \u00e9gard, l'internaute Ian Cutress a d\u00e9clar\u00e9 : \"L'utilisation de PTX par Deepseek n'\u00e9limine pas les obstacles techniques de CUDA\".<\/p>\n\n\n\n<figure class=\"wp-block-image\"><img decoding=\"async\" src=\"https:\/\/rmy9ct2fln.feishu.cn\/space\/api\/box\/stream\/download\/asynccode\/?code=YTFkNWFkMTNiYjQzNDZiMDI3ZmYxYjA3MzExYjE1MGRfemNRaFdmM1R4MTMwUWVWTUxxbHN2SjZYNEhvazBrZlNfVG9rZW46SFlEU2IwNEd3b29kMGl4cmVaOGNTcHFZbmxjXzE3MzgxNTE4NjQ6MTczODE1NTQ2NF9WNA\" alt=\"\"\/><\/figure>\n\n\n\n<p>CUDA est un langage de haut niveau. Il facilite le d\u00e9veloppement de biblioth\u00e8ques et d'interfaces avec les GPU NVIDIA et permet un d\u00e9veloppement it\u00e9ratif rapide.<\/p>\n\n\n\n<p>CUDA peut optimiser les performances en affinant le code sous-jacent (c'est-\u00e0-dire PTX), et les biblioth\u00e8ques de base sont d\u00e9j\u00e0 compl\u00e8tes. La plupart des logiciels de production sont actuellement construits sur CUDA.<\/p>\n\n\n\n<p>PTX est plus proche d'un langage d'assemblage directement compr\u00e9hensible pour le GPU. Il fonctionne \u00e0 bas niveau et permet une micro optimisation.<\/p>\n\n\n\n<p>Si vous choisissez de programmer en PTX, cela signifie qu'aucune des biblioth\u00e8ques CUDA int\u00e9gr\u00e9es mentionn\u00e9es ci-dessus ne peut \u00eatre utilis\u00e9e. Il s'agit d'une t\u00e2che tr\u00e8s fastidieuse qui n\u00e9cessite une expertise approfondie du mat\u00e9riel et des probl\u00e8mes d'ex\u00e9cution.<\/p>\n\n\n\n<p>Toutefois, si les d\u00e9veloppeurs comprennent parfaitement ce qu'ils font, ils peuvent effectivement obtenir de meilleures performances et une meilleure optimisation au moment de l'ex\u00e9cution.<\/p>\n\n\n\n<figure class=\"wp-block-image\"><img decoding=\"async\" src=\"https:\/\/rmy9ct2fln.feishu.cn\/space\/api\/box\/stream\/download\/asynccode\/?code=MGU3N2MyY2Y5NDg0MzAxYjkzNzI4MDg3YTRjN2JiNjJfSTI4Um5wZkxwamJMNjRLdmx6TnFmcTlhVDhLbTEyYlhfVG9rZW46SVpVcWJ4TmRtbzdYRjF4RFk5SWN4OWdjbmRlXzE3MzgxNTE4NjQ6MTczODE1NTQ2NF9WNA\" alt=\"\"\/><\/figure>\n\n\n\n<p>Actuellement, le courant dominant de l'\u00e9cosyst\u00e8me NVIDIA reste l'utilisation de CUDA.<\/p>\n\n\n\n<p>Les d\u00e9veloppeurs qui souhaitent obtenir 10-20% de performance ou d'efficacit\u00e9 \u00e9nerg\u00e9tique suppl\u00e9mentaires pour leur charge de calcul, comme les entreprises qui d\u00e9ploient des mod\u00e8les dans le nuage et vendent des services de jetons, ont en effet optimis\u00e9 du niveau CUDA au niveau PTX. Elles sont pr\u00eates \u00e0 investir du temps parce que cela en vaut la peine \u00e0 long terme.<\/p>\n\n\n\n<p>Il convient de noter que le PTX est g\u00e9n\u00e9ralement optimis\u00e9 pour un mod\u00e8le de mat\u00e9riel sp\u00e9cifique et qu'il est difficile de le transf\u00e9rer d'un mat\u00e9riel \u00e0 l'autre, \u00e0 moins que la logique d'adaptation ne soit sp\u00e9cialement \u00e9crite.<\/p>\n\n\n\n<p>En outre, la mise au point manuelle du noyau de calcul exige beaucoup de pers\u00e9v\u00e9rance, de courage et une capacit\u00e9 particuli\u00e8re \u00e0 rester calme, car le programme peut avoir une erreur d'acc\u00e8s \u00e0 la m\u00e9moire tous les 5 000 cycles.<\/p>\n\n\n\n<p>Bien s\u00fbr, pour les sc\u00e9narios o\u00f9 le PTX est vraiment n\u00e9cessaire, et pour les d\u00e9veloppeurs qui sont suffisamment pay\u00e9s pour s'occuper de ces questions, nous exprimons notre pleine compr\u00e9hension et notre respect.<\/p>\n\n\n\n<p>Pour tous les autres d\u00e9veloppeurs, il est conseill\u00e9 de continuer \u00e0 utiliser CUDA ou d'autres variantes avanc\u00e9es bas\u00e9es sur CUDA (ou MLIR).<\/p>","protected":false},"excerpt":{"rendered":"<p>D\u00e9tails du document DeepSeek V3 : Comment contourner le monopole de CUDA ! Les deux mod\u00e8les r\u00e9cemment publi\u00e9s par DeepSeek, DeepSeek-V3 et DeepSeek-R1, atteignent des performances comparables aux mod\u00e8les similaires d'OpenAI \u00e0 un co\u00fbt bien inf\u00e9rieur. Selon les m\u00e9dias \u00e9trangers, en seulement deux mois, ils ont entra\u00een\u00e9 un mod\u00e8le de langage MoE avec 671 milliards de param\u00e8tres sur un cluster de 2 048...<\/p>","protected":false},"author":2,"featured_media":684,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_kadence_starter_templates_imported_post":false,"_kad_post_transparent":"","_kad_post_title":"","_kad_post_layout":"","_kad_post_sidebar_id":"","_kad_post_content_style":"","_kad_post_vertical_padding":"","_kad_post_feature":"","_kad_post_feature_position":"","_kad_post_header":false,"_kad_post_footer":false,"footnotes":""},"categories":[1],"tags":[],"class_list":["post-710","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-uncategorized"],"_links":{"self":[{"href":"https:\/\/janusai.pro\/fr\/wp-json\/wp\/v2\/posts\/710","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/janusai.pro\/fr\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/janusai.pro\/fr\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/janusai.pro\/fr\/wp-json\/wp\/v2\/users\/2"}],"replies":[{"embeddable":true,"href":"https:\/\/janusai.pro\/fr\/wp-json\/wp\/v2\/comments?post=710"}],"version-history":[{"count":1,"href":"https:\/\/janusai.pro\/fr\/wp-json\/wp\/v2\/posts\/710\/revisions"}],"predecessor-version":[{"id":711,"href":"https:\/\/janusai.pro\/fr\/wp-json\/wp\/v2\/posts\/710\/revisions\/711"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/janusai.pro\/fr\/wp-json\/wp\/v2\/media\/684"}],"wp:attachment":[{"href":"https:\/\/janusai.pro\/fr\/wp-json\/wp\/v2\/media?parent=710"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/janusai.pro\/fr\/wp-json\/wp\/v2\/categories?post=710"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/janusai.pro\/fr\/wp-json\/wp\/v2\/tags?post=710"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}