{"id":710,"date":"2025-01-29T12:02:22","date_gmt":"2025-01-29T12:02:22","guid":{"rendered":"https:\/\/janusai.pro\/?p=710"},"modified":"2025-01-29T12:02:40","modified_gmt":"2025-01-29T12:02:40","slug":"deepseek-v3-paper-details-how-to-bypass-the-cuda-monopoly","status":"publish","type":"post","link":"https:\/\/janusai.pro\/pl\/deepseek-v3-paper-details-how-to-bypass-the-cuda-monopoly\/","title":{"rendered":"Szczeg\u00f3\u0142y artyku\u0142u DeepSeek V3: Jak omin\u0105\u0107 monopol CUDA!"},"content":{"rendered":"<div style=\"margin-top: 0px; margin-bottom: 0px;\" class=\"sharethis-inline-share-buttons\" ><\/div>\n<p><a href=\"https:\/\/www.deepseek.com\/\" target=\"_blank\" rel=\"noreferrer noopener nofollow\">DeepSeek V3<\/a> szczeg\u00f3\u0142y artyku\u0142u: Jak omin\u0105\u0107 monopol CUDA!<\/p>\n\n\n\n<p>Dwa niedawno wydane modele DeepSeek, DeepSeek-V3 i DeepSeek-R1, osi\u0105gaj\u0105 wydajno\u015b\u0107 por\u00f3wnywaln\u0105 z podobnymi modelami OpenAI przy znacznie ni\u017cszych kosztach.<\/p>\n\n\n\n<p>Wed\u0142ug doniesie\u0144 zagranicznych medi\u00f3w, w ci\u0105gu zaledwie dw\u00f3ch miesi\u0119cy wytrenowali oni model j\u0119zykowy MoE z 671 miliardami parametr\u00f3w na klastrze 2048 procesor\u00f3w graficznych H800, kt\u00f3ry jest 10 razy bardziej wydajny ni\u017c najlepsza sztuczna inteligencja.<\/p>\n\n\n\n<p>Prze\u0142om ten nie zosta\u0142 osi\u0105gni\u0119ty przy u\u017cyciu CUDA, ale dzi\u0119ki du\u017cej liczbie drobnoziarnistych optymalizacji i wykorzystaniu podobnego do asemblera programowania PTX (r\u00f3wnoleg\u0142e wykonywanie w\u0105tk\u00f3w) firmy NVIDIA.<\/p>\n\n\n\n<p><a href=\"https:\/\/www.deepseek.com\/\" target=\"_blank\" rel=\"noreferrer noopener nofollow\">DeepSeek<\/a> zosta\u0142a zmuszona do obrania innej \u015bcie\u017cki ni\u017c OpenAI i inne firmy, kt\u00f3re polegaj\u0105 na mocy obliczeniowej brutalnej si\u0142y przy ograniczeniach sprz\u0119towych. Firma wykorzysta\u0142a szereg innowacji technologicznych, aby zmniejszy\u0107 zapotrzebowanie modelu na moc obliczeniow\u0105 przy jednoczesnym osi\u0105gni\u0119ciu wzrostu wydajno\u015bci.<\/p>\n\n\n\n<figure class=\"wp-block-image\"><img decoding=\"async\" src=\"https:\/\/rmy9ct2fln.feishu.cn\/space\/api\/box\/stream\/download\/asynccode\/?code=ZDM1YTM0ODZkYmQzOWNkNzc2ZTBmNzUwY2ZjOWYxMjZfYnUyVHFsb05ya0c1M0hvMGRUbk9CN3FVekR1ZjlQMEZfVG9rZW46TUtzM2JudThpb1p3NHJ4SlZNeWNWdU10bnNnXzE3MzgxNTE4NjQ6MTczODE1NTQ2NF9WNA\" alt=\"\"\/><\/figure>\n\n\n\n<p>Kilka entuzjastycznych komentarzy od internaut\u00f3w:<\/p>\n\n\n\n<p>\"Na tym \u015bwiecie, je\u015bli s\u0105 jakie\u015b grupy ludzi, kt\u00f3rzy byliby na tyle szaleni, by m\u00f3wi\u0107 takie rzeczy jak 'CUDA jest zbyt wolna!<\/p>\n\n\n\n<figure class=\"wp-block-image\"><img decoding=\"async\" src=\"https:\/\/rmy9ct2fln.feishu.cn\/space\/api\/box\/stream\/download\/asynccode\/?code=OGEyMmE3ZTJkODlkZDlmNjliZTI1MzI5YTE4ZWE3MjdfWWRBam5VTkVaV1ZsMFg3VzVTRjRDZlUzV2ZiSHZYT2RfVG9rZW46VGZsdWJrTzZHb243OUx4bEZsbmNmMFNzblFiXzE3MzgxNTE4NjQ6MTczODE1NTQ2NF9WNA\" alt=\"\"\/><\/figure>\n\n\n\n<figure class=\"wp-block-image\"><img decoding=\"async\" src=\"https:\/\/rmy9ct2fln.feishu.cn\/space\/api\/box\/stream\/download\/asynccode\/?code=NzI1ZTBlMjJkMDI2N2MyMDdkMGI4YmU5OTJjNGM0YzFfZW4xbjVERFdhdGVObHBDUWR3NVZjbDRSM2lrVDlWRGlfVG9rZW46Q2N5MWIxV2ltbzdmZU14VXI2amNuZDk2bmRkXzE3MzgxNTE4NjQ6MTczODE1NTQ2NF9WNA\" alt=\"\"\/><\/figure>\n\n\n\n<figure class=\"wp-block-image\"><img decoding=\"async\" src=\"https:\/\/rmy9ct2fln.feishu.cn\/space\/api\/box\/stream\/download\/asynccode\/?code=MDMyN2YyYjYwYTNkZDhmMmEyYWY2MjMzZGE3MGM1ZmFfM29veUZrRWdYODRGR0JVdWVVTnRoMzVwTWxjV09CT25fVG9rZW46SVE2dGJWek9Mb29jaTJ4ZnkzWWN5bUZWbnVnXzE3MzgxNTE4NjQ6MTczODE1NTQ2NF9WNA\" alt=\"\"\/><\/figure>\n\n\n\n<div id=\"ez-toc-container\" class=\"ez-toc-v2_0_82_2 counter-hierarchy ez-toc-counter ez-toc-grey ez-toc-container-direction\">\n<div class=\"ez-toc-title-container\">\n<p class=\"ez-toc-title\" style=\"cursor:inherit\">Spis tre\u015bci<\/p>\n<span class=\"ez-toc-title-toggle\"><a href=\"#\" class=\"ez-toc-pull-right ez-toc-btn ez-toc-btn-xs ez-toc-btn-default ez-toc-toggle\" aria-label=\"Prze\u0142\u0105czanie spisu tre\u015bci\"><span class=\"ez-toc-js-icon-con\"><span class=\"\"><span class=\"eztoc-hide\" style=\"display:none;\">Toggle<\/span><span class=\"ez-toc-icon-toggle-span\"><svg style=\"fill: #999;color:#999\" xmlns=\"http:\/\/www.w3.org\/2000\/svg\" class=\"list-377408\" width=\"20px\" height=\"20px\" viewbox=\"0 0 24 24\" fill=\"none\"><path d=\"M6 6H4v2h2V6zm14 0H8v2h12V6zM4 11h2v2H4v-2zm16 0H8v2h12v-2zM4 16h2v2H4v-2zm16 0H8v2h12v-2z\" fill=\"currentColor\"><\/path><\/svg><svg style=\"fill: #999;color:#999\" class=\"arrow-unsorted-368013\" xmlns=\"http:\/\/www.w3.org\/2000\/svg\" width=\"10px\" height=\"10px\" viewbox=\"0 0 24 24\" version=\"1.2\" baseprofile=\"tiny\"><path d=\"M18.2 9.3l-6.2-6.3-6.2 6.3c-.2.2-.3.4-.3.7s.1.5.3.7c.2.2.4.3.7.3h11c.3 0 .5-.1.7-.3.2-.2.3-.5.3-.7s-.1-.5-.3-.7zM5.8 14.7l6.2 6.3 6.2-6.3c.2-.2.3-.5.3-.7s-.1-.5-.3-.7c-.2-.2-.4-.3-.7-.3h-11c-.3 0-.5.1-.7.3-.2.2-.3.5-.3.7s.1.5.3.7z\"\/><\/svg><\/span><\/span><\/span><\/a><\/span><\/div>\n<nav><ul class='ez-toc-list ez-toc-list-level-1' ><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-1\" href=\"https:\/\/janusai.pro\/pl\/deepseek-v3-paper-details-how-to-bypass-the-cuda-monopoly\/#Genius_geeks_fine-tune_PTX_to_maximize_GPU_performance\" >Geniusze dopracowuj\u0105 PTX, by zmaksymalizowa\u0107 wydajno\u015b\u0107 GPU<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-2\" href=\"https:\/\/janusai.pro\/pl\/deepseek-v3-paper-details-how-to-bypass-the-cuda-monopoly\/#PTX_and_CUDA\" >PTX i CUDA<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-3\" href=\"https:\/\/janusai.pro\/pl\/deepseek-v3-paper-details-how-to-bypass-the-cuda-monopoly\/#However_the_technical_barriers_remain\" >Nadal jednak istniej\u0105 bariery techniczne<\/a><\/li><\/ul><\/nav><\/div>\n<h2 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Genius_geeks_fine-tune_PTX_to_maximize_GPU_performance\"><\/span>Geniusze dopracowuj\u0105 PTX, by zmaksymalizowa\u0107 wydajno\u015b\u0107 GPU<span class=\"ez-toc-section-end\"><\/span><\/h2>\n\n\n\n<p>NVIDIA PTX (Parallel Thread Execution) to architektura po\u015bredniego zestawu instrukcji zaprojektowana specjalnie dla procesor\u00f3w graficznych tej firmy, znajduj\u0105ca si\u0119 pomi\u0119dzy wysokopoziomowymi j\u0119zykami programowania GPU (takimi jak CUDA C\/C++) lub innymi j\u0119zykami front-end a niskopoziomowym kodem maszynowym (streaming assembly lub SASS).<\/p>\n\n\n\n<p>PTX to niskopoziomowa architektura zestawu instrukcji, kt\u00f3ra prezentuje GPU jako urz\u0105dzenie do oblicze\u0144 r\u00f3wnoleg\u0142ych danych, umo\u017cliwiaj\u0105c drobnoziarniste optymalizacje, takie jak alokacja rejestr\u00f3w i dostrajanie na poziomie w\u0105tku \/ wi\u0105zki w\u0105tk\u00f3w, kt\u00f3re nie s\u0105 mo\u017cliwe w j\u0119zykach takich jak CUDA C\/C++.<\/p>\n\n\n\n<p>Gdy PTX jest konwertowany na SASS, jest zoptymalizowany pod k\u0105tem okre\u015blonej generacji procesor\u00f3w graficznych NVIDIA.<\/p>\n\n\n\n<figure class=\"wp-block-image\"><img decoding=\"async\" src=\"https:\/\/rmy9ct2fln.feishu.cn\/space\/api\/box\/stream\/download\/asynccode\/?code=MGIwZTQ0ZDdhMTgxYTBlMmEzZDE5OTczN2ZlZmEzNGFfc3I3T2U0UzNCOGdjd1ZHcktHd1hkd1RpcXlLbkxrU1FfVG9rZW46Vk05WWJ0a1Bob3NkYzl4bXpFc2N6anI3bktjXzE3MzgxNTE4NjQ6MTczODE1NTQ2NF9WNA\" alt=\"\"\/><\/figure>\n\n\n\n<p>Podczas szkolenia modelu V3 DeepSeek ponownie skonfigurowa\u0142 procesor graficzny NVIDIA H800:<\/p>\n\n\n\n<p>Spo\u015br\u00f3d 132 rdzeni procesora strumieniowego, 20 zosta\u0142o przydzielonych do komunikacji mi\u0119dzy serwerami, g\u0142\u00f3wnie do kompresji i dekompresji danych, aby prze\u0142ama\u0107 limit po\u0142\u0105cze\u0144 procesora i poprawi\u0107 szybko\u015b\u0107 przetwarzania transakcji.<\/p>\n\n\n\n<p>Aby zmaksymalizowa\u0107 wydajno\u015b\u0107, DeepSeek zaimplementowa\u0142 r\u00f3wnie\u017c zaawansowane algorytmy potokowania poprzez dodatkowe drobnoziarniste dostosowania poziomu w\u0105tku \/ wi\u0105zki w\u0105tk\u00f3w.<\/p>\n\n\n\n<p>Optymalizacje te wykraczaj\u0105 daleko poza poziom konwencjonalnego rozwoju CUDA, ale s\u0105 niezwykle trudne w utrzymaniu. Jednak ten poziom optymalizacji jest w\u0142a\u015bnie tym, co w pe\u0142ni demonstruje wyj\u0105tkowe mo\u017cliwo\u015bci techniczne zespo\u0142u DeepSeek.<\/p>\n\n\n\n<figure class=\"wp-block-image\"><img decoding=\"async\" src=\"https:\/\/rmy9ct2fln.feishu.cn\/space\/api\/box\/stream\/download\/asynccode\/?code=MDk2ZDMyM2IzOGU5OWNmN2JhOTY2ZDZmMjhkOWYwZGFfUnFiV0hvbnQ0ZUFHSHg3WHpyMW5jYTRvMURPM1pDSTZfVG9rZW46QnZVNWJyUzBDb2FWeE54Ym4ybGNZNXlnbmFnXzE3MzgxNTE4NjQ6MTczODE1NTQ2NF9WNA\" alt=\"\"\/><\/figure>\n\n\n\n<p>Dokument V3 zawiera szczeg\u00f3\u0142owe informacje na temat PTX<\/p>\n\n\n\n<p>Wynika to z faktu, \u017ce pod podw\u00f3jn\u0105 presj\u0105 globalnego niedoboru GPU i ameryka\u0144skich ogranicze\u0144, firmy takie jak DeepSeek musia\u0142y szuka\u0107 innowacyjnych rozwi\u0105za\u0144.<\/p>\n\n\n\n<p>Na szcz\u0119\u015bcie dokonali oni znacz\u0105cych prze\u0142om\u00f3w w tej dziedzinie.<\/p>\n\n\n\n<p>Jeden z deweloper\u00f3w uwa\u017ca, \u017ce \"niskopoziomowe programowanie GPU to w\u0142a\u015bciwy kierunek. Im wi\u0119cej optymalizacji, tym ni\u017cszy koszt lub bud\u017cet wydajno\u015bci, kt\u00f3ry mo\u017cna wykorzysta\u0107 na inne post\u0119py bez dodatkowych wydatk\u00f3w\".<\/p>\n\n\n\n<figure class=\"wp-block-image\"><img decoding=\"async\" src=\"https:\/\/rmy9ct2fln.feishu.cn\/space\/api\/box\/stream\/download\/asynccode\/?code=MmEzYzA5ZTVmNjE4ZTlhMWE0NWU1ZTgyZTA2NmUxMDJfUWdNb21QeEFtUWlFSFA1aGFWZEZJMzlUNjdPT3J5NXRfVG9rZW46RWtaaGJ2UlBHbzk2VWF4TmxkeGNPeGdKblJnXzE3MzgxNTE4NjQ6MTczODE1NTQ2NF9WNA\" alt=\"\"\/><\/figure>\n\n\n\n<p>Prze\u0142om ten mia\u0142 znacz\u0105cy wp\u0142yw na rynek, a niekt\u00f3rzy inwestorzy uwa\u017caj\u0105, \u017ce nowy model zmniejszy popyt na sprz\u0119t o wysokiej wydajno\u015bci, co mo\u017ce wp\u0142yn\u0105\u0107 na wyniki sprzeda\u017cy firm takich jak NVIDIA.<\/p>\n\n\n\n<p>Jednak weterani bran\u017cy, w tym by\u0142y dyrektor generalny Intela Pat Gelsinger, uwa\u017caj\u0105, \u017ce aplikacje AI mog\u0105 w pe\u0142ni wykorzysta\u0107 ca\u0142\u0105 dost\u0119pn\u0105 moc obliczeniow\u0105.<\/p>\n\n\n\n<p>Gelsinger postrzega ten prze\u0142om DeepSeek jako nowy spos\u00f3b na osadzenie mo\u017cliwo\u015bci sztucznej inteligencji w tanich urz\u0105dzeniach przeznaczonych na rynek masowy.<\/p>\n\n\n\n<figure class=\"wp-block-image\"><img decoding=\"async\" src=\"https:\/\/rmy9ct2fln.feishu.cn\/space\/api\/box\/stream\/download\/asynccode\/?code=NzgzZjM2ZTVlOWM0OWI1MDE5OTI1NTQwNWRjYTI5Y2NfZ25sc2tPNFJ1UHZwemp1WEVlclU1cloxZXI5aHJMbEZfVG9rZW46SHlGTGJnNHpHbzNzbnd4bkxPQ2N4T0RyblZkXzE3MzgxNTE4NjQ6MTczODE1NTQ2NF9WNA\" alt=\"\"\/><\/figure>\n\n\n\n<h2 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"PTX_and_CUDA\"><\/span>PTX i CUDA<span class=\"ez-toc-section-end\"><\/span><\/h2>\n\n\n\n<p>Czy zatem pojawienie si\u0119 DeepSeek oznacza, \u017ce rozw\u00f3j najnowocze\u015bniejszych technologii LLM nie wymaga ju\u017c wielkoskalowych klastr\u00f3w GPU?<\/p>\n\n\n\n<p>Czy ogromne inwestycje w zasoby obliczeniowe Google, <a href=\"https:\/\/openai.com\/\" target=\"_blank\" rel=\"noreferrer noopener nofollow\">OpenAI<\/a>Meta i xAI ostatecznie p\u00f3jd\u0105 na marne? Og\u00f3lny konsensus w\u015br\u00f3d tw\u00f3rc\u00f3w sztucznej inteligencji jest taki, \u017ce tak nie jest.<\/p>\n\n\n\n<p>Jest jednak pewne, \u017ce wci\u0105\u017c istnieje ogromny potencja\u0142 do wykorzystania w zakresie przetwarzania danych i optymalizacji algorytm\u00f3w, a w przysz\u0142o\u015bci z pewno\u015bci\u0105 pojawi\u0105 si\u0119 bardziej innowacyjne metody optymalizacji.<\/p>\n\n\n\n<p>Dzi\u0119ki otwartemu oprogramowaniu DeepSeek w wersji V3, szczeg\u00f3\u0142y zosta\u0142y szczeg\u00f3\u0142owo ujawnione w raporcie technicznym.<\/p>\n\n\n\n<p>Raport dokumentuje g\u0142\u0119bokie optymalizacje przeprowadzone przez DeepSeek. W skr\u00f3cie, stopie\u0144 optymalizacji mo\u017cna podsumowa\u0107 jako \"przebudowali ca\u0142y system od podstaw\".<\/p>\n\n\n\n<p>Jak wspomniano powy\u017cej, podczas szkolenia V3 przy u\u017cyciu GPU H800, DeepSeek dostosowa\u0142 podstawowe jednostki obliczeniowe GPU (strumieniowe rdzenie wieloprocesorowe lub SM) do konkretnych potrzeb.<\/p>\n\n\n\n<p>Z ca\u0142kowitej liczby 132 SM, specjalnie przydzielono 20 do obs\u0142ugi zada\u0144 komunikacji mi\u0119dzy serwerami, a nie zada\u0144 obliczeniowych.<\/p>\n\n\n\n<p>Dostosowanie to odbywa si\u0119 na poziomie PTX (r\u00f3wnoleg\u0142ego wykonywania w\u0105tk\u00f3w), kt\u00f3ry jest niskopoziomowym zestawem instrukcji procesora graficznego NVIDIA.<\/p>\n\n\n\n<p>PTX dzia\u0142a na poziomie zbli\u017conym do j\u0119zyka asemblera i umo\u017cliwia drobnoziarniste optymalizacje, takie jak alokacja rejestr\u00f3w i dostrajanie poziomu w\u0105tku \/ wi\u0105zki w\u0105tk\u00f3w. Ta precyzyjna kontrola jest jednak z\u0142o\u017cona i trudna do utrzymania.<\/p>\n\n\n\n<p>Dlatego programi\u015bci zazwyczaj wol\u0105 u\u017cywa\u0107 j\u0119zyk\u00f3w programowania wysokiego poziomu, takich jak CUDA, kt\u00f3re zapewniaj\u0105 wystarczaj\u0105c\u0105 optymalizacj\u0119 wydajno\u015bci dla wi\u0119kszo\u015bci zada\u0144 programowania r\u00f3wnoleg\u0142ego i eliminuj\u0105 potrzeb\u0119 optymalizacji na niskim poziomie.<\/p>\n\n\n\n<p>Jednak je\u015bli chodzi o maksymalizacj\u0119 wydajno\u015bci zasob\u00f3w GPU i osi\u0105gni\u0119cie okre\u015blonych wymaga\u0144 optymalizacyjnych, deweloperzy musz\u0105 ucieka\u0107 si\u0119 do PTX.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"However_the_technical_barriers_remain\"><\/span>Nadal jednak istniej\u0105 bariery techniczne<span class=\"ez-toc-section-end\"><\/span><\/h2>\n\n\n\n<p>W zwi\u0105zku z tym internauta Ian Cutress powiedzia\u0142: \"Wykorzystanie PTX przez Deepseek nie eliminuje technicznych barier CUDA\".<\/p>\n\n\n\n<figure class=\"wp-block-image\"><img decoding=\"async\" src=\"https:\/\/rmy9ct2fln.feishu.cn\/space\/api\/box\/stream\/download\/asynccode\/?code=YTFkNWFkMTNiYjQzNDZiMDI3ZmYxYjA3MzExYjE1MGRfemNRaFdmM1R4MTMwUWVWTUxxbHN2SjZYNEhvazBrZlNfVG9rZW46SFlEU2IwNEd3b29kMGl4cmVaOGNTcHFZbmxjXzE3MzgxNTE4NjQ6MTczODE1NTQ2NF9WNA\" alt=\"\"\/><\/figure>\n\n\n\n<p>CUDA to j\u0119zyk wysokiego poziomu. U\u0142atwia on tworzenie bibliotek i interfejs\u00f3w dla procesor\u00f3w graficznych NVIDIA i wspiera szybki rozw\u00f3j iteracyjny.<\/p>\n\n\n\n<p>CUDA mo\u017ce zoptymalizowa\u0107 wydajno\u015b\u0107 poprzez precyzyjne dostrojenie kodu bazowego (tj. PTX), a podstawowe biblioteki s\u0105 ju\u017c gotowe. Wi\u0119kszo\u015b\u0107 oprogramowania na poziomie produkcyjnym jest obecnie oparta na CUDA.<\/p>\n\n\n\n<p>PTX jest bardziej podobny do bezpo\u015brednio zrozumia\u0142ego j\u0119zyka asemblera dla GPU. Dzia\u0142a na niskim poziomie i pozwala na optymalizacj\u0119 na poziomie mikro.<\/p>\n\n\n\n<p>Je\u015bli zdecydujesz si\u0119 programowa\u0107 w PTX, oznacza to, \u017ce \u017cadna z wy\u017cej wymienionych wbudowanych bibliotek CUDA nie mo\u017ce by\u0107 u\u017cywana. Jest to bardzo \u017cmudne zadanie, kt\u00f3re wymaga dog\u0142\u0119bnej wiedzy na temat sprz\u0119tu i kwestii zwi\u0105zanych z uruchomieniem.<\/p>\n\n\n\n<p>Je\u015bli jednak programi\u015bci w pe\u0142ni rozumiej\u0105, co robi\u0105, mog\u0105 rzeczywi\u015bcie osi\u0105gn\u0105\u0107 lepsz\u0105 wydajno\u015b\u0107 i optymalizacj\u0119 w czasie wykonywania.<\/p>\n\n\n\n<figure class=\"wp-block-image\"><img decoding=\"async\" src=\"https:\/\/rmy9ct2fln.feishu.cn\/space\/api\/box\/stream\/download\/asynccode\/?code=MGU3N2MyY2Y5NDg0MzAxYjkzNzI4MDg3YTRjN2JiNjJfSTI4Um5wZkxwamJMNjRLdmx6TnFmcTlhVDhLbTEyYlhfVG9rZW46SVpVcWJ4TmRtbzdYRjF4RFk5SWN4OWdjbmRlXzE3MzgxNTE4NjQ6MTczODE1NTQ2NF9WNA\" alt=\"\"\/><\/figure>\n\n\n\n<p>Obecnie g\u0142\u00f3wnym nurtem ekosystemu NVIDIA jest nadal wykorzystanie CUDA.<\/p>\n\n\n\n<p>Programi\u015bci, kt\u00f3rzy chc\u0105 uzyska\u0107 dodatkowe 10-20% wydajno\u015bci lub efektywno\u015bci energetycznej z ich obci\u0105\u017cenia obliczeniowego, takich jak firmy, kt\u00f3re wdra\u017caj\u0105 modele w chmurze i sprzedaj\u0105 us\u0142ugi token\u00f3w, rzeczywi\u015bcie zoptymalizowali z poziomu CUDA do poziomu PTX. S\u0105 gotowi zainwestowa\u0107 czas, poniewa\u017c jest to op\u0142acalne w d\u0142u\u017cszej perspektywie.<\/p>\n\n\n\n<p>Nale\u017cy zauwa\u017cy\u0107, \u017ce PTX jest zwykle zoptymalizowany pod k\u0105tem konkretnego modelu sprz\u0119tu i jest trudny do przenoszenia mi\u0119dzy r\u00f3\u017cnymi urz\u0105dzeniami, chyba \u017ce logika adaptacji jest specjalnie napisana.<\/p>\n\n\n\n<p>Ponadto r\u0119czne dostrajanie j\u0105dra obliczeniowego wymaga du\u017cej wytrwa\u0142o\u015bci, odwagi i szczeg\u00f3lnej umiej\u0119tno\u015bci zachowania spokoju, poniewa\u017c program mo\u017ce mie\u0107 b\u0142\u0105d dost\u0119pu do pami\u0119ci co 5000 cykli.<\/p>\n\n\n\n<p>Oczywi\u015bcie, dla tych scenariuszy, w kt\u00f3rych PTX jest naprawd\u0119 potrzebny, i dla tych deweloper\u00f3w, kt\u00f3rzy s\u0105 wystarczaj\u0105co op\u0142acani, aby zajmowa\u0107 si\u0119 tymi kwestiami, wyra\u017camy nasze pe\u0142ne zrozumienie i szacunek.<\/p>\n\n\n\n<p>W przypadku wszystkich innych deweloper\u00f3w zaleca si\u0119 dalsze korzystanie z CUDA lub innych zaawansowanych wariant\u00f3w opartych na CUDA (lub MLIR).<\/p>","protected":false},"excerpt":{"rendered":"<p>Szczeg\u00f3\u0142y artyku\u0142u DeepSeek V3: Jak omin\u0105\u0107 monopol CUDA! Dwa niedawno wydane modele DeepSeek, DeepSeek-V3 i DeepSeek-R1, osi\u0105gaj\u0105 wydajno\u015b\u0107 por\u00f3wnywaln\u0105 z podobnymi modelami OpenAI przy znacznie ni\u017cszych kosztach. Wed\u0142ug doniesie\u0144 zagranicznych medi\u00f3w, w ci\u0105gu zaledwie dw\u00f3ch miesi\u0119cy wytrenowali oni model j\u0119zykowy MoE z 671 miliardami parametr\u00f3w na klastrze 2048...<\/p>","protected":false},"author":2,"featured_media":684,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_kadence_starter_templates_imported_post":false,"_kad_post_transparent":"","_kad_post_title":"","_kad_post_layout":"","_kad_post_sidebar_id":"","_kad_post_content_style":"","_kad_post_vertical_padding":"","_kad_post_feature":"","_kad_post_feature_position":"","_kad_post_header":false,"_kad_post_footer":false,"footnotes":""},"categories":[1],"tags":[],"class_list":["post-710","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-uncategorized"],"_links":{"self":[{"href":"https:\/\/janusai.pro\/pl\/wp-json\/wp\/v2\/posts\/710","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/janusai.pro\/pl\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/janusai.pro\/pl\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/janusai.pro\/pl\/wp-json\/wp\/v2\/users\/2"}],"replies":[{"embeddable":true,"href":"https:\/\/janusai.pro\/pl\/wp-json\/wp\/v2\/comments?post=710"}],"version-history":[{"count":1,"href":"https:\/\/janusai.pro\/pl\/wp-json\/wp\/v2\/posts\/710\/revisions"}],"predecessor-version":[{"id":711,"href":"https:\/\/janusai.pro\/pl\/wp-json\/wp\/v2\/posts\/710\/revisions\/711"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/janusai.pro\/pl\/wp-json\/wp\/v2\/media\/684"}],"wp:attachment":[{"href":"https:\/\/janusai.pro\/pl\/wp-json\/wp\/v2\/media?parent=710"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/janusai.pro\/pl\/wp-json\/wp\/v2\/categories?post=710"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/janusai.pro\/pl\/wp-json\/wp\/v2\/tags?post=710"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}