{"id":710,"date":"2025-01-29T12:02:22","date_gmt":"2025-01-29T12:02:22","guid":{"rendered":"https:\/\/janusai.pro\/?p=710"},"modified":"2025-01-29T12:02:40","modified_gmt":"2025-01-29T12:02:40","slug":"deepseek-v3-paper-details-how-to-bypass-the-cuda-monopoly","status":"publish","type":"post","link":"https:\/\/janusai.pro\/hu\/deepseek-v3-paper-details-how-to-bypass-the-cuda-monopoly\/","title":{"rendered":"DeepSeek V3 pap\u00edr r\u00e9szletek: Hogyan ker\u00fclj\u00fck meg a CUDA monop\u00f3liumot!"},"content":{"rendered":"<div style=\"margin-top: 0px; margin-bottom: 0px;\" class=\"sharethis-inline-share-buttons\" ><\/div>\n<p><a href=\"https:\/\/www.deepseek.com\/\" target=\"_blank\" rel=\"noreferrer noopener nofollow\">DeepSeek V3<\/a> pap\u00edr r\u00e9szletek: Hogyan ker\u00fclj\u00fck meg a CUDA monop\u00f3liumot!<\/p>\n\n\n\n<p>A DeepSeek k\u00e9t nemr\u00e9g megjelent modellje, a DeepSeek-V3 \u00e9s a DeepSeek-R1 az OpenAI hasonl\u00f3 modelljeihez hasonl\u00f3 teljes\u00edtm\u00e9nyt ny\u00fajtanak, j\u00f3val alacsonyabb k\u00f6lts\u00e9gek mellett.<\/p>\n\n\n\n<p>K\u00fclf\u00f6ldi m\u00e9diajelent\u00e9sek szerint mind\u00f6ssze k\u00e9t h\u00f3nap alatt 671 milli\u00e1rd param\u00e9tert tartalmaz\u00f3 MoE nyelvi modellt k\u00e9peztek ki egy 2048 H800 GPU-b\u00f3l \u00e1ll\u00f3 klaszteren, ami 10-szer hat\u00e9konyabb, mint a legjobb mesters\u00e9ges intelligencia.<\/p>\n\n\n\n<p>Ezt az \u00e1tt\u00f6r\u00e9st nem a CUDA haszn\u00e1lat\u00e1val, hanem sz\u00e1mos finomhangolt optimaliz\u00e1l\u00e1ssal \u00e9s az NVIDIA assembly-szer\u0171 PTX (p\u00e1rhuzamos sz\u00e1lv\u00e9grehajt\u00e1s) programoz\u00e1s\u00e1nak alkalmaz\u00e1s\u00e1val siker\u00fclt el\u00e9rni.<\/p>\n\n\n\n<p><a href=\"https:\/\/www.deepseek.com\/\" target=\"_blank\" rel=\"noreferrer noopener nofollow\">DeepSeek<\/a> k\u00e9nytelen volt m\u00e1s utat v\u00e1lasztani, mint az OpenAI \u00e9s m\u00e1s v\u00e1llalatok, amelyek hardveres korl\u00e1tok k\u00f6z\u00f6tt a nyers er\u0151vel t\u00f6rt\u00e9n\u0151 sz\u00e1m\u00edt\u00e1si teljes\u00edtm\u00e9nyre t\u00e1maszkodnak. Egy sor technol\u00f3giai \u00faj\u00edt\u00e1ssal cs\u00f6kkentette a modell energiaig\u00e9ny\u00e9t, mik\u00f6zben teljes\u00edtm\u00e9nyn\u00f6veked\u00e9st \u00e9rt el.<\/p>\n\n\n\n<figure class=\"wp-block-image\"><img decoding=\"async\" src=\"https:\/\/rmy9ct2fln.feishu.cn\/space\/api\/box\/stream\/download\/asynccode\/?code=ZDM1YTM0ODZkYmQzOWNkNzc2ZTBmNzUwY2ZjOWYxMjZfYnUyVHFsb05ya0c1M0hvMGRUbk9CN3FVekR1ZjlQMEZfVG9rZW46TUtzM2JudThpb1p3NHJ4SlZNeWNWdU10bnNnXzE3MzgxNTE4NjQ6MTczODE1NTQ2NF9WNA\" alt=\"\"\/><\/figure>\n\n\n\n<p>N\u00e9h\u00e1ny lelkes hozz\u00e1sz\u00f3l\u00e1s a netez\u0151k r\u00e9sz\u00e9r\u0151l:<\/p>\n\n\n\n<p>\"Ebben a vil\u00e1gban, ha vannak olyan embercsoportok, akik el\u00e9g \u0151r\u00fcltek ahhoz, hogy olyan dolgokat mondjanak, mint 'A CUDA t\u00fal lass\u00fa!<\/p>\n\n\n\n<figure class=\"wp-block-image\"><img decoding=\"async\" src=\"https:\/\/rmy9ct2fln.feishu.cn\/space\/api\/box\/stream\/download\/asynccode\/?code=OGEyMmE3ZTJkODlkZDlmNjliZTI1MzI5YTE4ZWE3MjdfWWRBam5VTkVaV1ZsMFg3VzVTRjRDZlUzV2ZiSHZYT2RfVG9rZW46VGZsdWJrTzZHb243OUx4bEZsbmNmMFNzblFiXzE3MzgxNTE4NjQ6MTczODE1NTQ2NF9WNA\" alt=\"\"\/><\/figure>\n\n\n\n<figure class=\"wp-block-image\"><img decoding=\"async\" src=\"https:\/\/rmy9ct2fln.feishu.cn\/space\/api\/box\/stream\/download\/asynccode\/?code=NzI1ZTBlMjJkMDI2N2MyMDdkMGI4YmU5OTJjNGM0YzFfZW4xbjVERFdhdGVObHBDUWR3NVZjbDRSM2lrVDlWRGlfVG9rZW46Q2N5MWIxV2ltbzdmZU14VXI2amNuZDk2bmRkXzE3MzgxNTE4NjQ6MTczODE1NTQ2NF9WNA\" alt=\"\"\/><\/figure>\n\n\n\n<figure class=\"wp-block-image\"><img decoding=\"async\" src=\"https:\/\/rmy9ct2fln.feishu.cn\/space\/api\/box\/stream\/download\/asynccode\/?code=MDMyN2YyYjYwYTNkZDhmMmEyYWY2MjMzZGE3MGM1ZmFfM29veUZrRWdYODRGR0JVdWVVTnRoMzVwTWxjV09CT25fVG9rZW46SVE2dGJWek9Mb29jaTJ4ZnkzWWN5bUZWbnVnXzE3MzgxNTE4NjQ6MTczODE1NTQ2NF9WNA\" alt=\"\"\/><\/figure>\n\n\n\n<div id=\"ez-toc-container\" class=\"ez-toc-v2_0_82_2 counter-hierarchy ez-toc-counter ez-toc-grey ez-toc-container-direction\">\n<div class=\"ez-toc-title-container\">\n<p class=\"ez-toc-title\" style=\"cursor:inherit\">Tartalomjegyz\u00e9k<\/p>\n<span class=\"ez-toc-title-toggle\"><a href=\"#\" class=\"ez-toc-pull-right ez-toc-btn ez-toc-btn-xs ez-toc-btn-default ez-toc-toggle\" aria-label=\"Toggle Tartalomjegyz\u00e9k\"><span class=\"ez-toc-js-icon-con\"><span class=\"\"><span class=\"eztoc-hide\" style=\"display:none;\">Toggle<\/span><span class=\"ez-toc-icon-toggle-span\"><svg style=\"fill: #999;color:#999\" xmlns=\"http:\/\/www.w3.org\/2000\/svg\" class=\"list-377408\" width=\"20px\" height=\"20px\" viewbox=\"0 0 24 24\" fill=\"none\"><path d=\"M6 6H4v2h2V6zm14 0H8v2h12V6zM4 11h2v2H4v-2zm16 0H8v2h12v-2zM4 16h2v2H4v-2zm16 0H8v2h12v-2z\" fill=\"currentColor\"><\/path><\/svg><svg style=\"fill: #999;color:#999\" class=\"arrow-unsorted-368013\" xmlns=\"http:\/\/www.w3.org\/2000\/svg\" width=\"10px\" height=\"10px\" viewbox=\"0 0 24 24\" version=\"1.2\" baseprofile=\"tiny\"><path d=\"M18.2 9.3l-6.2-6.3-6.2 6.3c-.2.2-.3.4-.3.7s.1.5.3.7c.2.2.4.3.7.3h11c.3 0 .5-.1.7-.3.2-.2.3-.5.3-.7s-.1-.5-.3-.7zM5.8 14.7l6.2 6.3 6.2-6.3c.2-.2.3-.5.3-.7s-.1-.5-.3-.7c-.2-.2-.4-.3-.7-.3h-11c-.3 0-.5.1-.7.3-.2.2-.3.5-.3.7s.1.5.3.7z\"\/><\/svg><\/span><\/span><\/span><\/a><\/span><\/div>\n<nav><ul class='ez-toc-list ez-toc-list-level-1' ><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-1\" href=\"https:\/\/janusai.pro\/hu\/deepseek-v3-paper-details-how-to-bypass-the-cuda-monopoly\/#Genius_geeks_fine-tune_PTX_to_maximize_GPU_performance\" >Zseni\u00e1lis geekek finomhangolj\u00e1k a PTX-et a GPU teljes\u00edtm\u00e9ny\u00e9nek maximaliz\u00e1l\u00e1sa \u00e9rdek\u00e9ben<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-2\" href=\"https:\/\/janusai.pro\/hu\/deepseek-v3-paper-details-how-to-bypass-the-cuda-monopoly\/#PTX_and_CUDA\" >PTX \u00e9s CUDA<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-3\" href=\"https:\/\/janusai.pro\/hu\/deepseek-v3-paper-details-how-to-bypass-the-cuda-monopoly\/#However_the_technical_barriers_remain\" >A technikai akad\u00e1lyok azonban tov\u00e1bbra is fenn\u00e1llnak<\/a><\/li><\/ul><\/nav><\/div>\n<h2 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Genius_geeks_fine-tune_PTX_to_maximize_GPU_performance\"><\/span>Zseni\u00e1lis geekek finomhangolj\u00e1k a PTX-et a GPU teljes\u00edtm\u00e9ny\u00e9nek maximaliz\u00e1l\u00e1sa \u00e9rdek\u00e9ben<span class=\"ez-toc-section-end\"><\/span><\/h2>\n\n\n\n<p>Az NVIDIA PTX (Parallel Thread Execution) egy k\u00f6z\u00e9ps\u0151 utas\u00edt\u00e1sk\u00e9szlet-architekt\u00fara, amelyet kifejezetten a GPU-khoz terveztek, \u00e9s a magas szint\u0171 GPU-programoz\u00e1si nyelvek (p\u00e9ld\u00e1ul CUDA C\/C++) vagy m\u00e1s nyelvi frontendek \u00e9s az alacsony szint\u0171 g\u00e9pi k\u00f3d (streaming assembly vagy SASS) k\u00f6z\u00f6tt helyezkedik el.<\/p>\n\n\n\n<p>A PTX egy olyan alacsony szint\u0171 utas\u00edt\u00e1sk\u00e9szlet-architekt\u00fara, amely a GPU-t adatp\u00e1rhuzamos sz\u00e1m\u00edt\u00e1si eszk\u00f6zk\u00e9nt mutatja be, lehet\u0151v\u00e9 t\u00e9ve az olyan finomszemcs\u00e9s optimaliz\u00e1l\u00e1sokat, mint a regiszterkioszt\u00e1s \u00e9s a sz\u00e1l\/sz\u00e1l-k\u00f6teg szint\u0171 hangol\u00e1s, amelyek az olyan nyelvekkel, mint a CUDA C\/C++, nem lehets\u00e9gesek.<\/p>\n\n\n\n<p>Amikor a PTX-et SASS-ba konvert\u00e1lj\u00e1k, az NVIDIA GPU-k egy bizonyos gener\u00e1ci\u00f3j\u00e1ra optimaliz\u00e1lj\u00e1k.<\/p>\n\n\n\n<figure class=\"wp-block-image\"><img decoding=\"async\" src=\"https:\/\/rmy9ct2fln.feishu.cn\/space\/api\/box\/stream\/download\/asynccode\/?code=MGIwZTQ0ZDdhMTgxYTBlMmEzZDE5OTczN2ZlZmEzNGFfc3I3T2U0UzNCOGdjd1ZHcktHd1hkd1RpcXlLbkxrU1FfVG9rZW46Vk05WWJ0a1Bob3NkYzl4bXpFc2N6anI3bktjXzE3MzgxNTE4NjQ6MTczODE1NTQ2NF9WNA\" alt=\"\"\/><\/figure>\n\n\n\n<p>A V3 modell kik\u00e9pz\u00e9sekor a DeepSeek \u00fajrakonfigur\u00e1lta az NVIDIA H800 GPU-t:<\/p>\n\n\n\n<p>A 132 stream processzormagb\u00f3l 20-at a szerverek k\u00f6z\u00f6tti kommunik\u00e1ci\u00f3ra, f\u0151k\u00e9nt az adatt\u00f6m\u00f6r\u00edt\u00e9sre \u00e9s -dekompresszi\u00f3ra osztottak ki, hogy \u00e1tt\u00f6rj\u00e9k a processzor kapcsolati korl\u00e1tj\u00e1t \u00e9s jav\u00edts\u00e1k a tranzakci\u00f3k feldolgoz\u00e1si sebess\u00e9g\u00e9t.<\/p>\n\n\n\n<p>A teljes\u00edtm\u00e9ny maximaliz\u00e1l\u00e1sa \u00e9rdek\u00e9ben a DeepSeek fejlett pipelining algoritmusokat is megval\u00f3s\u00edtott, tov\u00e1bbi finomabb sz\u00e1l\/sz\u00e1lk\u00f6teg szint\u0171 be\u00e1ll\u00edt\u00e1sok r\u00e9v\u00e9n.<\/p>\n\n\n\n<p>Ezek az optimaliz\u00e1ci\u00f3k messze t\u00falmutatnak a hagyom\u00e1nyos CUDA fejleszt\u00e9s szintj\u00e9n, de rendk\u00edv\u00fcl neh\u00e9z karbantartani \u0151ket. Az optimaliz\u00e1l\u00e1snak \u00e9ppen ez a szintje azonban teljes m\u00e9rt\u00e9kben bizony\u00edtja a DeepSeek csapat\u00e1nak kiemelked\u0151 technikai k\u00e9pess\u00e9geit.<\/p>\n\n\n\n<figure class=\"wp-block-image\"><img decoding=\"async\" src=\"https:\/\/rmy9ct2fln.feishu.cn\/space\/api\/box\/stream\/download\/asynccode\/?code=MDk2ZDMyM2IzOGU5OWNmN2JhOTY2ZDZmMjhkOWYwZGFfUnFiV0hvbnQ0ZUFHSHg3WHpyMW5jYTRvMURPM1pDSTZfVG9rZW46QnZVNWJyUzBDb2FWeE54Ym4ybGNZNXlnbmFnXzE3MzgxNTE4NjQ6MTczODE1NTQ2NF9WNA\" alt=\"\"\/><\/figure>\n\n\n\n<p>A V3-as dokumentum kifejezetten megeml\u00edti a PTX-re vonatkoz\u00f3 r\u00e9szleteket.<\/p>\n\n\n\n<p>Ennek oka, hogy a glob\u00e1lis GPU-hi\u00e1ny \u00e9s az amerikai korl\u00e1toz\u00e1sok kett\u0151s nyom\u00e1sa alatt az olyan v\u00e1llalatoknak, mint a DeepSeek, innovat\u00edv megold\u00e1sokat kellett keresni\u00fck.<\/p>\n\n\n\n<p>Szerencs\u00e9re jelent\u0151s \u00e1tt\u00f6r\u00e9st \u00e9rtek el ezen a ter\u00fcleten.<\/p>\n\n\n\n<p>Az egyik fejleszt\u0151 \u00fagy v\u00e9li, hogy \"az alacsony szint\u0171 GPU-programoz\u00e1s a helyes ir\u00e1ny. Min\u00e9l t\u00f6bb az optimaliz\u00e1l\u00e1s, ann\u00e1l alacsonyabb a k\u00f6lts\u00e9g, illetve a teljes\u00edtm\u00e9nyb\u00fcdzs\u00e9, amely tov\u00e1bbi kiad\u00e1sok n\u00e9lk\u00fcl felhaszn\u00e1lhat\u00f3 m\u00e1s el\u0151rel\u00e9p\u00e9sekre\".<\/p>\n\n\n\n<figure class=\"wp-block-image\"><img decoding=\"async\" src=\"https:\/\/rmy9ct2fln.feishu.cn\/space\/api\/box\/stream\/download\/asynccode\/?code=MmEzYzA5ZTVmNjE4ZTlhMWE0NWU1ZTgyZTA2NmUxMDJfUWdNb21QeEFtUWlFSFA1aGFWZEZJMzlUNjdPT3J5NXRfVG9rZW46RWtaaGJ2UlBHbzk2VWF4TmxkeGNPeGdKblJnXzE3MzgxNTE4NjQ6MTczODE1NTQ2NF9WNA\" alt=\"\"\/><\/figure>\n\n\n\n<p>Ez az \u00e1tt\u00f6r\u00e9s jelent\u0151s hat\u00e1ssal volt a piacra, \u00e9s egyes befektet\u0151k \u00fagy v\u00e9lik, hogy az \u00faj modell cs\u00f6kkenteni fogja a nagy teljes\u00edtm\u00e9ny\u0171 hardverek ir\u00e1nti keresletet, ami hat\u00e1ssal lehet az olyan v\u00e1llalatok \u00e9rt\u00e9kes\u00edt\u00e9si teljes\u00edtm\u00e9ny\u00e9re, mint az NVIDIA.<\/p>\n\n\n\n<p>Az ipar\u00e1g veter\u00e1njai, k\u00f6zt\u00fck Pat Gelsinger, az Intel kor\u00e1bbi vez\u00e9rigazgat\u00f3ja azonban \u00fagy v\u00e9lik, hogy az AI-alkalmaz\u00e1sok teljes m\u00e9rt\u00e9kben kihaszn\u00e1lhatj\u00e1k az \u00f6sszes rendelkez\u00e9sre \u00e1ll\u00f3 sz\u00e1m\u00edt\u00e1si teljes\u00edtm\u00e9nyt.<\/p>\n\n\n\n<p>Gelsinger \u00fagy l\u00e1tja, hogy a DeepSeek \u00e1tt\u00f6r\u00e9se \u00faj m\u00f3dot jelent a mesters\u00e9ges intelligencia k\u00e9pess\u00e9gek t\u00f6megpiacra sz\u00e1nt, alacsony k\u00f6lts\u00e9g\u0171 eszk\u00f6z\u00f6kbe val\u00f3 be\u00e1gyaz\u00e1s\u00e1ra.<\/p>\n\n\n\n<figure class=\"wp-block-image\"><img decoding=\"async\" src=\"https:\/\/rmy9ct2fln.feishu.cn\/space\/api\/box\/stream\/download\/asynccode\/?code=NzgzZjM2ZTVlOWM0OWI1MDE5OTI1NTQwNWRjYTI5Y2NfZ25sc2tPNFJ1UHZwemp1WEVlclU1cloxZXI5aHJMbEZfVG9rZW46SHlGTGJnNHpHbzNzbnd4bkxPQ2N4T0RyblZkXzE3MzgxNTE4NjQ6MTczODE1NTQ2NF9WNA\" alt=\"\"\/><\/figure>\n\n\n\n<h2 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"PTX_and_CUDA\"><\/span>PTX \u00e9s CUDA<span class=\"ez-toc-section-end\"><\/span><\/h2>\n\n\n\n<p>A DeepSeek megjelen\u00e9se teh\u00e1t azt jelenti, hogy az \u00e9lvonalbeli LLM fejleszt\u00e9s\u00e9hez m\u00e1r nincs sz\u00fcks\u00e9g nagym\u00e9ret\u0171 GPU-klaszterekre?<\/p>\n\n\n\n<p>A Google hatalmas befektet\u00e9sei a sz\u00e1m\u00edt\u00e1stechnikai er\u0151forr\u00e1sokba, <a href=\"https:\/\/openai.com\/\" target=\"_blank\" rel=\"noreferrer noopener nofollow\">OpenAI<\/a>, a Meta \u00e9s az xAI v\u00e9gs\u0151 soron k\u00e1rba veszik? A mesters\u00e9ges intelligencia fejleszt\u0151k k\u00f6r\u00e9ben az \u00e1ltal\u00e1nos konszenzus szerint nem ez a helyzet.<\/p>\n\n\n\n<p>Az azonban biztos, hogy az adatfeldolgoz\u00e1s \u00e9s az algoritmusok optimaliz\u00e1l\u00e1sa ter\u00e9n m\u00e9g mindig hatalmas potenci\u00e1l rejlik, \u00e9s a j\u00f6v\u0151ben minden bizonnyal tov\u00e1bbi innovat\u00edv optimaliz\u00e1l\u00e1si m\u00f3dszerek jelennek meg.<\/p>\n\n\n\n<p>A DeepSeek V3-as modellje ny\u00edlt forr\u00e1sk\u00f3d\u00fa, a r\u00e9szleteket a technikai jelent\u00e9sben r\u00e9szletesen k\u00f6zz\u00e9teszik.<\/p>\n\n\n\n<p>A jelent\u00e9s dokument\u00e1lja a DeepSeek \u00e1ltal v\u00e9gzett m\u00e9lyrehat\u00f3 optimaliz\u00e1l\u00e1sokat. R\u00f6viden, az optimaliz\u00e1l\u00e1s m\u00e9rt\u00e9ke \u00fagy foglalhat\u00f3 \u00f6ssze, hogy \"az alapokt\u00f3l kezdve \u00fajj\u00e1\u00e9p\u00edtett\u00e9k az eg\u00e9sz rendszert\".<\/p>\n\n\n\n<p>Amint fentebb eml\u00edtett\u00fck, a V3 H800 GPU-val t\u00f6rt\u00e9n\u0151 k\u00e9pz\u00e9se sor\u00e1n a DeepSeek a GPU sz\u00e1m\u00edt\u00e1si magjait (streaming multiprocesszor magok, vagy SM-ek) az egyedi ig\u00e9nyeknek megfelel\u0151en testre szabta.<\/p>\n\n\n\n<p>Az \u00f6sszesen 132 SM-b\u0151l 20-at kifejezetten a kiszolg\u00e1l\u00f3k k\u00f6z\u00f6tti kommunik\u00e1ci\u00f3s feladatok, nem pedig a sz\u00e1m\u00edt\u00e1si feladatok kezel\u00e9s\u00e9re k\u00fcl\u00f6n\u00edtettek el.<\/p>\n\n\n\n<p>Ez a testreszab\u00e1s a PTX (parallel thread execution) szinten t\u00f6rt\u00e9nik, amely az NVIDIA GPU alacsony szint\u0171 utas\u00edt\u00e1sk\u00e9szlete.<\/p>\n\n\n\n<p>A PTX az assembly nyelvhez k\u00f6zeli szinten fut, \u00e9s lehet\u0151v\u00e9 teszi az olyan finom optimaliz\u00e1l\u00e1sokat, mint a regiszterkioszt\u00e1s \u00e9s a sz\u00e1l\/sz\u00e1l-k\u00f6teg szint\u0171 hangol\u00e1s. Ez a finom vez\u00e9rl\u00e9s azonban \u00f6sszetett \u00e9s nehezen karbantarthat\u00f3.<\/p>\n\n\n\n<p>Ez\u00e9rt a fejleszt\u0151k \u00e1ltal\u00e1ban ink\u00e1bb olyan magas szint\u0171 programoz\u00e1si nyelveket haszn\u00e1lnak, mint a CUDA, amelyek a legt\u00f6bb p\u00e1rhuzamos programoz\u00e1si feladathoz elegend\u0151 teljes\u00edtm\u00e9nyoptimaliz\u00e1l\u00e1st biztos\u00edtanak, \u00e9s kik\u00fcsz\u00f6b\u00f6lik az alacsony szint\u0171 optimaliz\u00e1l\u00e1s sz\u00fcks\u00e9gess\u00e9g\u00e9t.<\/p>\n\n\n\n<p>Amikor azonban a GPU-er\u0151forr\u00e1sok hat\u00e9konys\u00e1g\u00e1nak maximaliz\u00e1l\u00e1s\u00e1r\u00f3l \u00e9s a speci\u00e1lis optimaliz\u00e1l\u00e1si k\u00f6vetelm\u00e9nyek teljes\u00edt\u00e9s\u00e9r\u0151l van sz\u00f3, a fejleszt\u0151knek a PTX-hez kell folyamodniuk.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"However_the_technical_barriers_remain\"><\/span>A technikai akad\u00e1lyok azonban tov\u00e1bbra is fenn\u00e1llnak<span class=\"ez-toc-section-end\"><\/span><\/h2>\n\n\n\n<p>Ezzel kapcsolatban Ian Cutress internetfelhaszn\u00e1l\u00f3 azt mondta: \"A Deepseek PTX haszn\u00e1lata nem sz\u00fcnteti meg a CUDA technikai akad\u00e1lyait\".<\/p>\n\n\n\n<figure class=\"wp-block-image\"><img decoding=\"async\" src=\"https:\/\/rmy9ct2fln.feishu.cn\/space\/api\/box\/stream\/download\/asynccode\/?code=YTFkNWFkMTNiYjQzNDZiMDI3ZmYxYjA3MzExYjE1MGRfemNRaFdmM1R4MTMwUWVWTUxxbHN2SjZYNEhvazBrZlNfVG9rZW46SFlEU2IwNEd3b29kMGl4cmVaOGNTcHFZbmxjXzE3MzgxNTE4NjQ6MTczODE1NTQ2NF9WNA\" alt=\"\"\/><\/figure>\n\n\n\n<p>A CUDA egy magas szint\u0171 nyelv. Megk\u00f6nny\u00edti a k\u00f6nyvt\u00e1rak \u00e9s interf\u00e9szek fejleszt\u00e9s\u00e9t az NVIDIA GPU-kkal, \u00e9s t\u00e1mogatja a gyors iterat\u00edv fejleszt\u00e9st.<\/p>\n\n\n\n<p>A CUDA az alapul szolg\u00e1l\u00f3 k\u00f3d (pl. PTX) finomhangol\u00e1s\u00e1val optimaliz\u00e1lhatja a teljes\u00edtm\u00e9nyt, \u00e9s az alapvet\u0151 k\u00f6nyvt\u00e1rak m\u00e1r k\u00e9szen \u00e1llnak. A legt\u00f6bb gy\u00e1rt\u00e1si szint\u0171 szoftver jelenleg CUDA-ra \u00e9p\u00fcl.<\/p>\n\n\n\n<p>A PTX ink\u00e1bb egy k\u00f6zvetlen\u00fcl \u00e9rthet\u0151 assembly nyelvhez hasonl\u00edt a GPU sz\u00e1m\u00e1ra. Alacsony szinten m\u0171k\u00f6dik, \u00e9s lehet\u0151v\u00e9 teszi a mikroszint\u0171 optimaliz\u00e1l\u00e1st.<\/p>\n\n\n\n<p>Ha a PTX nyelven t\u00f6rt\u00e9n\u0151 programoz\u00e1st v\u00e1lasztja, az azt jelenti, hogy a fent eml\u00edtett be\u00e9p\u00edtett CUDA k\u00f6nyvt\u00e1rak egyike sem haszn\u00e1lhat\u00f3. Ez egy nagyon f\u00e1rads\u00e1gos feladat, amely alapos szak\u00e9rtelmet ig\u00e9nyel a hardver \u00e9s a fut\u00e1sidej\u0171 k\u00e9rd\u00e9sek ter\u00e9n.<\/p>\n\n\n\n<p>Ha azonban a fejleszt\u0151k teljesen meg\u00e9rtik, hogy mit csin\u00e1lnak, akkor val\u00f3ban jobb teljes\u00edtm\u00e9nyt \u00e9s optimaliz\u00e1l\u00e1st \u00e9rhetnek el fut\u00e1sid\u0151ben.<\/p>\n\n\n\n<figure class=\"wp-block-image\"><img decoding=\"async\" src=\"https:\/\/rmy9ct2fln.feishu.cn\/space\/api\/box\/stream\/download\/asynccode\/?code=MGU3N2MyY2Y5NDg0MzAxYjkzNzI4MDg3YTRjN2JiNjJfSTI4Um5wZkxwamJMNjRLdmx6TnFmcTlhVDhLbTEyYlhfVG9rZW46SVpVcWJ4TmRtbzdYRjF4RFk5SWN4OWdjbmRlXzE3MzgxNTE4NjQ6MTczODE1NTQ2NF9WNA\" alt=\"\"\/><\/figure>\n\n\n\n<p>Jelenleg az NVIDIA \u00f6kosziszt\u00e9ma f\u0151\u00e1ram\u00e1t m\u00e9g mindig a CUDA haszn\u00e1lata jelenti.<\/p>\n\n\n\n<p>Azok a fejleszt\u0151k, akik extra 10-20% teljes\u00edtm\u00e9nyt vagy energiahat\u00e9konys\u00e1got szeretn\u00e9nek kihozni a sz\u00e1m\u00edt\u00e1si terhel\u00e9s\u00fckb\u0151l, p\u00e9ld\u00e1ul a modelleket a felh\u0151ben telep\u00edt\u0151 \u00e9s tokenszolg\u00e1ltat\u00e1sokat \u00e9rt\u00e9kes\u00edt\u0151 v\u00e1llalatok, val\u00f3ban optimaliz\u00e1ltak a CUDA szintr\u0151l a PTX szintre. Hajland\u00f3ak id\u0151t befektetni, mert hossz\u00fa t\u00e1von meg\u00e9ri.<\/p>\n\n\n\n<p>Meg kell jegyezni, hogy a PTX rendszerint egy adott hardvermodellre van optimaliz\u00e1lva, \u00e9s neh\u00e9z a k\u00fcl\u00f6nb\u00f6z\u0151 hardverek k\u00f6z\u00f6tti \u00e1tvitel, hacsak nem \u00edrunk k\u00fcl\u00f6n adapt\u00e1ci\u00f3s logik\u00e1t.<\/p>\n\n\n\n<p>R\u00e1ad\u00e1sul a sz\u00e1m\u00edt\u00e1si kernel k\u00e9zi hangol\u00e1sa nagy kitart\u00e1st, b\u00e1tors\u00e1got \u00e9s k\u00fcl\u00f6nleges nyugodts\u00e1got ig\u00e9nyel, mert a programban 5000 ciklusonk\u00e9nt el\u0151fordulhat mem\u00f3ria-hozz\u00e1f\u00e9r\u00e9si hiba.<\/p>\n\n\n\n<p>Term\u00e9szetesen azokban az esetekben, amikor a PTX-re val\u00f3ban sz\u00fcks\u00e9g van, \u00e9s azokn\u00e1l a fejleszt\u0151kn\u00e9l, akiket el\u00e9gg\u00e9 megfizetnek ahhoz, hogy ezekkel a k\u00e9rd\u00e9sekkel foglalkozzanak, teljes meg\u00e9rt\u00e9s\u00fcnket \u00e9s tisztelet\u00fcnket fejezz\u00fck ki.<\/p>\n\n\n\n<p>Minden m\u00e1s fejleszt\u0151 sz\u00e1m\u00e1ra aj\u00e1nlott tov\u00e1bbra is a CUDA vagy m\u00e1s, CUDA-n (vagy MLIR-en) alapul\u00f3 fejlett v\u00e1ltozatok haszn\u00e1lata.<\/p>","protected":false},"excerpt":{"rendered":"<p>DeepSeek V3 pap\u00edr r\u00e9szletek: Hogyan ker\u00fclj\u00fck meg a CUDA monop\u00f3liumot! A DeepSeek k\u00e9t nemr\u00e9g megjelent modellje, a DeepSeek-V3 \u00e9s a DeepSeek-R1 az OpenAI hasonl\u00f3 modelljeihez hasonl\u00f3 teljes\u00edtm\u00e9nyt \u00e9r el, j\u00f3val alacsonyabb k\u00f6lts\u00e9gek mellett. K\u00fclf\u00f6ldi m\u00e9diajelent\u00e9sek szerint mind\u00f6ssze k\u00e9t h\u00f3nap alatt 671 milli\u00e1rd param\u00e9tert tartalmaz\u00f3 MoE nyelvi modellt k\u00e9peztek ki egy 2048 f\u0151s klaszteren...<\/p>","protected":false},"author":2,"featured_media":684,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_kadence_starter_templates_imported_post":false,"_kad_post_transparent":"","_kad_post_title":"","_kad_post_layout":"","_kad_post_sidebar_id":"","_kad_post_content_style":"","_kad_post_vertical_padding":"","_kad_post_feature":"","_kad_post_feature_position":"","_kad_post_header":false,"_kad_post_footer":false,"footnotes":""},"categories":[1],"tags":[],"class_list":["post-710","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-uncategorized"],"_links":{"self":[{"href":"https:\/\/janusai.pro\/hu\/wp-json\/wp\/v2\/posts\/710","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/janusai.pro\/hu\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/janusai.pro\/hu\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/janusai.pro\/hu\/wp-json\/wp\/v2\/users\/2"}],"replies":[{"embeddable":true,"href":"https:\/\/janusai.pro\/hu\/wp-json\/wp\/v2\/comments?post=710"}],"version-history":[{"count":1,"href":"https:\/\/janusai.pro\/hu\/wp-json\/wp\/v2\/posts\/710\/revisions"}],"predecessor-version":[{"id":711,"href":"https:\/\/janusai.pro\/hu\/wp-json\/wp\/v2\/posts\/710\/revisions\/711"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/janusai.pro\/hu\/wp-json\/wp\/v2\/media\/684"}],"wp:attachment":[{"href":"https:\/\/janusai.pro\/hu\/wp-json\/wp\/v2\/media?parent=710"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/janusai.pro\/hu\/wp-json\/wp\/v2\/categories?post=710"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/janusai.pro\/hu\/wp-json\/wp\/v2\/tags?post=710"}],"curies":[{"name":"munkaf\u00fczet","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}