{"id":710,"date":"2025-01-29T12:02:22","date_gmt":"2025-01-29T12:02:22","guid":{"rendered":"https:\/\/janusai.pro\/?p=710"},"modified":"2025-01-29T12:02:40","modified_gmt":"2025-01-29T12:02:40","slug":"deepseek-v3-paper-details-how-to-bypass-the-cuda-monopoly","status":"publish","type":"post","link":"https:\/\/janusai.pro\/fi\/deepseek-v3-paper-details-how-to-bypass-the-cuda-monopoly\/","title":{"rendered":"DeepSeek V3 -asiakirjan tiedot: CUDA-monopolin ohittaminen!"},"content":{"rendered":"<div style=\"margin-top: 0px; margin-bottom: 0px;\" class=\"sharethis-inline-share-buttons\" ><\/div>\n<p><a href=\"https:\/\/www.deepseek.com\/\" target=\"_blank\" rel=\"noreferrer noopener nofollow\">DeepSeek V3<\/a> paperin tiedot: CUDA-monopolin ohittaminen!<\/p>\n\n\n\n<p>DeepSeekin kaksi hiljattain julkaistua mallia, DeepSeek-V3 ja DeepSeek-R1, ovat suorituskyvylt\u00e4\u00e4n verrattavissa OpenAI:n vastaaviin malleihin huomattavasti edullisemmin.<\/p>\n\n\n\n<p>Ulkomaisten tiedotusv\u00e4lineiden mukaan he kouluttivat vain kahdessa kuukaudessa 2 048 H800 GPU:n klusterilla 671 miljardin parametrin MoE-kielimallin, joka on 10 kertaa tehokkaampi kuin huipputeko\u00e4ly.<\/p>\n\n\n\n<p>T\u00e4t\u00e4 l\u00e4pimurtoa ei saavutettu CUDA:n avulla, vaan suurella m\u00e4\u00e4r\u00e4ll\u00e4 hienojakoisia optimointeja ja k\u00e4ytt\u00e4m\u00e4ll\u00e4 NVIDIAn assembly-tyyppist\u00e4 PTX-ohjelmointia (parallel thread execution).<\/p>\n\n\n\n<p><a href=\"https:\/\/www.deepseek.com\/\" target=\"_blank\" rel=\"noreferrer noopener nofollow\">DeepSeek<\/a> on ollut pakko valita eri tie kuin OpenAI ja muut yritykset, jotka luottavat raakaan laskentatehoon laitteiston rajoitteiden puitteissa. Se on k\u00e4ytt\u00e4nyt useita teknologisia innovaatioita v\u00e4hent\u00e4\u00e4kseen mallin tehovaatimuksia ja saavuttaakseen samalla suorituskyvyn kasvua.<\/p>\n\n\n\n<figure class=\"wp-block-image\"><img decoding=\"async\" src=\"https:\/\/rmy9ct2fln.feishu.cn\/space\/api\/box\/stream\/download\/asynccode\/?code=ZDM1YTM0ODZkYmQzOWNkNzc2ZTBmNzUwY2ZjOWYxMjZfYnUyVHFsb05ya0c1M0hvMGRUbk9CN3FVekR1ZjlQMEZfVG9rZW46TUtzM2JudThpb1p3NHJ4SlZNeWNWdU10bnNnXzE3MzgxNTE4NjQ6MTczODE1NTQ2NF9WNA\" alt=\"\"\/><\/figure>\n\n\n\n<p>Joitakin innostuneita kommentteja nettikansalaisilta:<\/p>\n\n\n\n<p>\"T\u00e4ss\u00e4 maailmassa, jos on olemassa ihmisryhmi\u00e4, jotka ovat tarpeeksi hulluja sanoakseen asioita kuten 'CUDA on liian hidas!', niin se on liian hidas.<\/p>\n\n\n\n<figure class=\"wp-block-image\"><img decoding=\"async\" src=\"https:\/\/rmy9ct2fln.feishu.cn\/space\/api\/box\/stream\/download\/asynccode\/?code=OGEyMmE3ZTJkODlkZDlmNjliZTI1MzI5YTE4ZWE3MjdfWWRBam5VTkVaV1ZsMFg3VzVTRjRDZlUzV2ZiSHZYT2RfVG9rZW46VGZsdWJrTzZHb243OUx4bEZsbmNmMFNzblFiXzE3MzgxNTE4NjQ6MTczODE1NTQ2NF9WNA\" alt=\"\"\/><\/figure>\n\n\n\n<figure class=\"wp-block-image\"><img decoding=\"async\" src=\"https:\/\/rmy9ct2fln.feishu.cn\/space\/api\/box\/stream\/download\/asynccode\/?code=NzI1ZTBlMjJkMDI2N2MyMDdkMGI4YmU5OTJjNGM0YzFfZW4xbjVERFdhdGVObHBDUWR3NVZjbDRSM2lrVDlWRGlfVG9rZW46Q2N5MWIxV2ltbzdmZU14VXI2amNuZDk2bmRkXzE3MzgxNTE4NjQ6MTczODE1NTQ2NF9WNA\" alt=\"\"\/><\/figure>\n\n\n\n<figure class=\"wp-block-image\"><img decoding=\"async\" src=\"https:\/\/rmy9ct2fln.feishu.cn\/space\/api\/box\/stream\/download\/asynccode\/?code=MDMyN2YyYjYwYTNkZDhmMmEyYWY2MjMzZGE3MGM1ZmFfM29veUZrRWdYODRGR0JVdWVVTnRoMzVwTWxjV09CT25fVG9rZW46SVE2dGJWek9Mb29jaTJ4ZnkzWWN5bUZWbnVnXzE3MzgxNTE4NjQ6MTczODE1NTQ2NF9WNA\" alt=\"\"\/><\/figure>\n\n\n\n<div id=\"ez-toc-container\" class=\"ez-toc-v2_0_72 counter-hierarchy ez-toc-counter ez-toc-grey ez-toc-container-direction\">\n<div class=\"ez-toc-title-container\">\n<p class=\"ez-toc-title\" style=\"cursor:inherit\">Sis\u00e4llysluettelo<\/p>\n<span class=\"ez-toc-title-toggle\"><a href=\"#\" class=\"ez-toc-pull-right ez-toc-btn ez-toc-btn-xs ez-toc-btn-default ez-toc-toggle\" aria-label=\"Sis\u00e4llysluettelon vaihtaminen\"><span class=\"ez-toc-js-icon-con\"><span class=\"\"><span class=\"eztoc-hide\" style=\"display:none;\">Toggle<\/span><span class=\"ez-toc-icon-toggle-span\"><svg style=\"fill: #999;color:#999\" xmlns=\"http:\/\/www.w3.org\/2000\/svg\" class=\"list-377408\" width=\"20px\" height=\"20px\" viewbox=\"0 0 24 24\" fill=\"none\"><path d=\"M6 6H4v2h2V6zm14 0H8v2h12V6zM4 11h2v2H4v-2zm16 0H8v2h12v-2zM4 16h2v2H4v-2zm16 0H8v2h12v-2z\" fill=\"currentColor\"><\/path><\/svg><svg style=\"fill: #999;color:#999\" class=\"arrow-unsorted-368013\" xmlns=\"http:\/\/www.w3.org\/2000\/svg\" width=\"10px\" height=\"10px\" viewbox=\"0 0 24 24\" version=\"1.2\" baseprofile=\"tiny\"><path d=\"M18.2 9.3l-6.2-6.3-6.2 6.3c-.2.2-.3.4-.3.7s.1.5.3.7c.2.2.4.3.7.3h11c.3 0 .5-.1.7-.3.2-.2.3-.5.3-.7s-.1-.5-.3-.7zM5.8 14.7l6.2 6.3 6.2-6.3c.2-.2.3-.5.3-.7s-.1-.5-.3-.7c-.2-.2-.4-.3-.7-.3h-11c-.3 0-.5.1-.7.3-.2.2-.3.5-.3.7s.1.5.3.7z\"\/><\/svg><\/span><\/span><\/span><\/a><\/span><\/div>\n<nav><ul class='ez-toc-list ez-toc-list-level-1' ><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-1\" href=\"https:\/\/janusai.pro\/fi\/deepseek-v3-paper-details-how-to-bypass-the-cuda-monopoly\/#Genius_geeks_fine-tune_PTX_to_maximize_GPU_performance\" title=\"Nerokkaat n\u00f6rtit hienos\u00e4\u00e4t\u00e4v\u00e4t PTX:\u00e4\u00e4 maksimoidakseen GPU:n suorituskyvyn\">Nerokkaat n\u00f6rtit hienos\u00e4\u00e4t\u00e4v\u00e4t PTX:\u00e4\u00e4 maksimoidakseen GPU:n suorituskyvyn<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-2\" href=\"https:\/\/janusai.pro\/fi\/deepseek-v3-paper-details-how-to-bypass-the-cuda-monopoly\/#PTX_and_CUDA\" title=\"PTX ja CUDA\">PTX ja CUDA<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-3\" href=\"https:\/\/janusai.pro\/fi\/deepseek-v3-paper-details-how-to-bypass-the-cuda-monopoly\/#However_the_technical_barriers_remain\" title=\"Tekniset esteet ovat kuitenkin edelleen olemassa\">Tekniset esteet ovat kuitenkin edelleen olemassa<\/a><\/li><\/ul><\/nav><\/div>\n<h2 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Genius_geeks_fine-tune_PTX_to_maximize_GPU_performance\"><\/span>Nerokkaat n\u00f6rtit hienos\u00e4\u00e4t\u00e4v\u00e4t PTX:\u00e4\u00e4 maksimoidakseen GPU:n suorituskyvyn<span class=\"ez-toc-section-end\"><\/span><\/h2>\n\n\n\n<p>NVIDIA PTX (Parallel Thread Execution) on erityisesti NVIDIAn n\u00e4yt\u00f6nohjaimille suunniteltu keskimm\u00e4inen k\u00e4skykanta-arkkitehtuuri, joka sijoittuu korkean tason GPU-ohjelmointikielten (kuten CUDA C\/C++) tai muiden kielten etup\u00e4\u00e4tteiden ja matalan tason konekoodin (streaming assembly tai SASS) v\u00e4liin.<\/p>\n\n\n\n<p>PTX on matalan tason k\u00e4skykanta-arkkitehtuuri, joka esitt\u00e4\u00e4 GPU:n datan rinnakkaislaskentalaitteena, mik\u00e4 mahdollistaa hienojakoiset optimoinnit, kuten rekisterien allokoinnin ja s\u00e4ikeen\/s\u00e4ikeen ja nipun tason virityksen, jotka eiv\u00e4t ole mahdollisia CUDA C\/C++:n kaltaisilla kielill\u00e4.<\/p>\n\n\n\n<p>Kun PTX muunnetaan SASS:ksi, se optimoidaan tietylle NVIDIAn GPU-sukupolvelle.<\/p>\n\n\n\n<figure class=\"wp-block-image\"><img decoding=\"async\" src=\"https:\/\/rmy9ct2fln.feishu.cn\/space\/api\/box\/stream\/download\/asynccode\/?code=MGIwZTQ0ZDdhMTgxYTBlMmEzZDE5OTczN2ZlZmEzNGFfc3I3T2U0UzNCOGdjd1ZHcktHd1hkd1RpcXlLbkxrU1FfVG9rZW46Vk05WWJ0a1Bob3NkYzl4bXpFc2N6anI3bktjXzE3MzgxNTE4NjQ6MTczODE1NTQ2NF9WNA\" alt=\"\"\/><\/figure>\n\n\n\n<p>Kouluttaessaan V3-mallia DeepSeek konfiguroi NVIDIA H800 -n\u00e4yt\u00f6nohjaimen uudelleen:<\/p>\n\n\n\n<p>Stream-prosessorin 132 ytimest\u00e4 20 varattiin palvelinten v\u00e4liseen viestint\u00e4\u00e4n, p\u00e4\u00e4asiassa tietojen pakkaamiseen ja purkamiseen, jotta prosessorin yhteysraja voitiin rikkoa ja transaktioiden k\u00e4sittelynopeutta parantaa.<\/p>\n\n\n\n<p>Suorituskyvyn maksimoimiseksi DeepSeek toteutti my\u00f6s kehittyneit\u00e4 putkijuoksutusalgoritmeja hienojakoisten s\u00e4ikeiden\/s\u00e4ikeiden nippujen tason s\u00e4\u00e4t\u00f6jen avulla.<\/p>\n\n\n\n<p>N\u00e4m\u00e4 optimoinnit ylitt\u00e4v\u00e4t huomattavasti tavanomaisen CUDA-kehityksen tason, mutta niit\u00e4 on eritt\u00e4in vaikea yll\u00e4pit\u00e4\u00e4. Juuri t\u00e4m\u00e4 optimointitaso on kuitenkin se, mik\u00e4 osoittaa DeepSeek-tiimin erinomaiset tekniset valmiudet.<\/p>\n\n\n\n<figure class=\"wp-block-image\"><img decoding=\"async\" src=\"https:\/\/rmy9ct2fln.feishu.cn\/space\/api\/box\/stream\/download\/asynccode\/?code=MDk2ZDMyM2IzOGU5OWNmN2JhOTY2ZDZmMjhkOWYwZGFfUnFiV0hvbnQ0ZUFHSHg3WHpyMW5jYTRvMURPM1pDSTZfVG9rZW46QnZVNWJyUzBDb2FWeE54Ym4ybGNZNXlnbmFnXzE3MzgxNTE4NjQ6MTczODE1NTQ2NF9WNA\" alt=\"\"\/><\/figure>\n\n\n\n<p>V3-asiakirjassa mainitaan erityisesti PTX:\u00e4\u00e4 koskevia yksityiskohtia.<\/p>\n\n\n\n<p>T\u00e4m\u00e4 johtuu siit\u00e4, ett\u00e4 DeepSeekin kaltaisten yritysten oli etsitt\u00e4v\u00e4 innovatiivisia ratkaisuja maailmanlaajuisen GPU-pulan ja Yhdysvaltojen rajoitusten aiheuttaman kaksinkertaisen paineen alla.<\/p>\n\n\n\n<p>Onneksi he ovat tehneet merkitt\u00e4vi\u00e4 l\u00e4pimurtoja t\u00e4ll\u00e4 alalla.<\/p>\n\n\n\n<p>Er\u00e4s kehitt\u00e4j\u00e4 uskoo, ett\u00e4 \"matalan tason GPU-ohjelmointi on oikea suunta. Mit\u00e4 enemm\u00e4n optimointia, sit\u00e4 alhaisemmat kustannukset eli suorituskykybudjetti, jota voidaan k\u00e4ytt\u00e4\u00e4 muuhun edistymiseen ilman lis\u00e4kustannuksia.\"<\/p>\n\n\n\n<figure class=\"wp-block-image\"><img decoding=\"async\" src=\"https:\/\/rmy9ct2fln.feishu.cn\/space\/api\/box\/stream\/download\/asynccode\/?code=MmEzYzA5ZTVmNjE4ZTlhMWE0NWU1ZTgyZTA2NmUxMDJfUWdNb21QeEFtUWlFSFA1aGFWZEZJMzlUNjdPT3J5NXRfVG9rZW46RWtaaGJ2UlBHbzk2VWF4TmxkeGNPeGdKblJnXzE3MzgxNTE4NjQ6MTczODE1NTQ2NF9WNA\" alt=\"\"\/><\/figure>\n\n\n\n<p>T\u00e4m\u00e4 l\u00e4pimurto on vaikuttanut merkitt\u00e4v\u00e4sti markkinoihin, ja jotkut sijoittajat uskovat, ett\u00e4 uusi malli v\u00e4hent\u00e4\u00e4 suorituskykyisten laitteistojen kysynt\u00e4\u00e4, mik\u00e4 voi vaikuttaa NVIDIAn kaltaisten yritysten myyntituloksiin.<\/p>\n\n\n\n<p>Alan veteraanit, kuten Intelin entinen toimitusjohtaja Pat Gelsinger, uskovat kuitenkin, ett\u00e4 teko\u00e4lysovellukset voivat hy\u00f6dynt\u00e4\u00e4 kaikkea k\u00e4ytett\u00e4viss\u00e4 olevaa laskentatehoa.<\/p>\n\n\n\n<p>Gelsinger pit\u00e4\u00e4 DeepSeekin l\u00e4pimurtoa uutena tapana sis\u00e4llytt\u00e4\u00e4 teko\u00e4lyominaisuudet edullisiin laitteisiin massamarkkinoille.<\/p>\n\n\n\n<figure class=\"wp-block-image\"><img decoding=\"async\" src=\"https:\/\/rmy9ct2fln.feishu.cn\/space\/api\/box\/stream\/download\/asynccode\/?code=NzgzZjM2ZTVlOWM0OWI1MDE5OTI1NTQwNWRjYTI5Y2NfZ25sc2tPNFJ1UHZwemp1WEVlclU1cloxZXI5aHJMbEZfVG9rZW46SHlGTGJnNHpHbzNzbnd4bkxPQ2N4T0RyblZkXzE3MzgxNTE4NjQ6MTczODE1NTQ2NF9WNA\" alt=\"\"\/><\/figure>\n\n\n\n<h2 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"PTX_and_CUDA\"><\/span>PTX ja CUDA<span class=\"ez-toc-section-end\"><\/span><\/h2>\n\n\n\n<p>Tarkoittaako DeepSeekin tulo siis sit\u00e4, ett\u00e4 huippuluokan LLM:n kehitt\u00e4minen ei en\u00e4\u00e4 vaadi suuria GPU-klustereita?<\/p>\n\n\n\n<p>Onko Googlen valtavat investoinnit laskentaresursseihin, <a href=\"https:\/\/openai.com\/\" target=\"_blank\" rel=\"noreferrer noopener nofollow\">OpenAI<\/a>, Meta ja xAI menev\u00e4t lopulta hukkaan? Teko\u00e4lyn kehitt\u00e4j\u00e4t ovat yleisesti sit\u00e4 mielt\u00e4, ett\u00e4 n\u00e4in ei ole.<\/p>\n\n\n\n<p>On kuitenkin varmaa, ett\u00e4 tietojenk\u00e4sittelyss\u00e4 ja algoritmien optimoinnissa on viel\u00e4 valtavasti potentiaalia, ja tulevaisuudessa syntyy varmasti lis\u00e4\u00e4 innovatiivisia optimointimenetelmi\u00e4.<\/p>\n\n\n\n<p>DeepSeekin V3-mallin avoimen l\u00e4hdekoodin my\u00f6t\u00e4 yksityiskohdat paljastetaan yksityiskohtaisesti sen teknisess\u00e4 raportissa.<\/p>\n\n\n\n<p>Raportissa dokumentoidaan DeepSeekin suorittamat syv\u00e4lliset optimoinnit. Lyhyesti sanottuna optimoinnin aste voidaan tiivist\u00e4\u00e4 muotoon \"he ovat rakentaneet koko j\u00e4rjestelm\u00e4n alusta alkaen uudelleen\".<\/p>\n\n\n\n<p>Kuten edell\u00e4 mainittiin, kun DeepSeek koulutti V3:a H800-grafiikkasuorittimen avulla, se mukautti grafiikkasuorittimen laskentayksik\u00f6t (streaming multiprocessor cores, SM) vastaamaan erityistarpeita.<\/p>\n\n\n\n<p>Kaikkiaan 132 SM:st\u00e4 20:lle osoitettiin nimenomaan palvelinten v\u00e4lisi\u00e4 viestint\u00e4teht\u00e4vi\u00e4 eik\u00e4 laskentateht\u00e4vi\u00e4.<\/p>\n\n\n\n<p>T\u00e4m\u00e4 mukautus tehd\u00e4\u00e4n PTX-tasolla (parallel thread execution), joka on NVIDIAn n\u00e4yt\u00f6nohjaimen matalan tason k\u00e4skykanta.<\/p>\n\n\n\n<p>PTX toimii l\u00e4hell\u00e4 assembler-kielen tasoa ja mahdollistaa hienojakoiset optimoinnit, kuten rekisterien jakamisen ja s\u00e4ikeen\/s\u00e4ikeen nippujen tason virityksen. T\u00e4llainen hienos\u00e4\u00e4t\u00f6 on kuitenkin monimutkaista ja vaikeaa yll\u00e4pit\u00e4\u00e4.<\/p>\n\n\n\n<p>T\u00e4m\u00e4n vuoksi kehitt\u00e4j\u00e4t k\u00e4ytt\u00e4v\u00e4t yleens\u00e4 mieluummin korkean tason ohjelmointikieli\u00e4, kuten CUDAa, joka tarjoaa riitt\u00e4v\u00e4t suorituskykyoptimoinnit useimpiin rinnakkaisohjelmointiteht\u00e4viin ja poistaa tarpeen matalan tason optimoinneille.<\/p>\n\n\n\n<p>Kehitt\u00e4jien on kuitenkin turvauduttava PTX:\u00e4\u00e4n, kun halutaan maksimoida GPU-resurssien tehokkuus ja saavuttaa erityiset optimointivaatimukset.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"However_the_technical_barriers_remain\"><\/span>Tekniset esteet ovat kuitenkin edelleen olemassa<span class=\"ez-toc-section-end\"><\/span><\/h2>\n\n\n\n<p>Internet-k\u00e4ytt\u00e4j\u00e4 Ian Cutress sanoi t\u00e4ss\u00e4 yhteydess\u00e4: \"Deepseekin PTX:n k\u00e4ytt\u00f6 ei poista CUDA:n teknisi\u00e4 esteit\u00e4.\"<\/p>\n\n\n\n<figure class=\"wp-block-image\"><img decoding=\"async\" src=\"https:\/\/rmy9ct2fln.feishu.cn\/space\/api\/box\/stream\/download\/asynccode\/?code=YTFkNWFkMTNiYjQzNDZiMDI3ZmYxYjA3MzExYjE1MGRfemNRaFdmM1R4MTMwUWVWTUxxbHN2SjZYNEhvazBrZlNfVG9rZW46SFlEU2IwNEd3b29kMGl4cmVaOGNTcHFZbmxjXzE3MzgxNTE4NjQ6MTczODE1NTQ2NF9WNA\" alt=\"\"\/><\/figure>\n\n\n\n<p>CUDA on korkean tason kieli. Se helpottaa kirjastojen ja rajapintojen kehitt\u00e4mist\u00e4 NVIDIAn GPU:n kanssa ja tukee nopeaa iteratiivista kehityst\u00e4.<\/p>\n\n\n\n<p>CUDA voi optimoida suorituskyky\u00e4 hienos\u00e4\u00e4t\u00e4m\u00e4ll\u00e4 taustalla olevaa koodia (eli PTX:\u00e4\u00e4), ja peruskirjastot ovat jo valmiina. Suurin osa tuotantotason ohjelmistoista on t\u00e4ll\u00e4 hetkell\u00e4 rakennettu CUDA:n varaan.<\/p>\n\n\n\n<p>PTX muistuttaa enemm\u00e4n suoraan ymm\u00e4rrett\u00e4v\u00e4\u00e4 GPU:n kokoonpanokielt\u00e4. Se toimii matalalla tasolla ja mahdollistaa mikrotason optimoinnin.<\/p>\n\n\n\n<p>Jos p\u00e4\u00e4t\u00e4t ohjelmoida PTX:ll\u00e4, se tarkoittaa, ett\u00e4 mit\u00e4\u00e4n edell\u00e4 mainituista sis\u00e4\u00e4nrakennetuista CUDA-kirjastoista ei voi k\u00e4ytt\u00e4\u00e4. T\u00e4m\u00e4 on hyvin ty\u00f6l\u00e4s teht\u00e4v\u00e4, joka vaatii syv\u00e4llist\u00e4 asiantuntemusta laitteisto- ja suoritusaikakysymyksist\u00e4.<\/p>\n\n\n\n<p>Jos kehitt\u00e4j\u00e4t kuitenkin ymm\u00e4rt\u00e4v\u00e4t t\u00e4ysin, mit\u00e4 ovat tekem\u00e4ss\u00e4, he voivat todellakin saavuttaa paremman suorituskyvyn ja optimoinnin suoritusaikana.<\/p>\n\n\n\n<figure class=\"wp-block-image\"><img decoding=\"async\" src=\"https:\/\/rmy9ct2fln.feishu.cn\/space\/api\/box\/stream\/download\/asynccode\/?code=MGU3N2MyY2Y5NDg0MzAxYjkzNzI4MDg3YTRjN2JiNjJfSTI4Um5wZkxwamJMNjRLdmx6TnFmcTlhVDhLbTEyYlhfVG9rZW46SVpVcWJ4TmRtbzdYRjF4RFk5SWN4OWdjbmRlXzE3MzgxNTE4NjQ6MTczODE1NTQ2NF9WNA\" alt=\"\"\/><\/figure>\n\n\n\n<p>T\u00e4ll\u00e4 hetkell\u00e4 NVIDIAn ekosysteemin valtavirta on edelleen CUDA:n k\u00e4ytt\u00f6.<\/p>\n\n\n\n<p>Kehitt\u00e4j\u00e4t, jotka haluavat saada laskennallisesta kuormituksestaan lis\u00e4\u00e4 10-20% suorituskyky\u00e4 tai energiatehokkuutta, kuten yritykset, jotka k\u00e4ytt\u00e4v\u00e4t malleja pilvess\u00e4 ja myyv\u00e4t token-palveluja, ovat todellakin optimoineet CUDA-tasolta PTX-tasolle. He ovat valmiita investoimaan aikaa, koska se on sen arvoista pitk\u00e4ll\u00e4 aikav\u00e4lill\u00e4.<\/p>\n\n\n\n<p>On huomattava, ett\u00e4 PTX on yleens\u00e4 optimoitu tietylle laitteistomallille, ja sit\u00e4 on vaikea siirt\u00e4\u00e4 eri laitteistojen v\u00e4lill\u00e4, ellei mukautuslogiikkaa ole kirjoitettu erikseen.<\/p>\n\n\n\n<p>Lis\u00e4ksi laskentaytimen manuaalinen viritt\u00e4minen vaatii paljon sitkeytt\u00e4, rohkeutta ja erityist\u00e4 kyky\u00e4 pysy\u00e4 rauhallisena, koska ohjelmassa saattaa esiinty\u00e4 muistinhakuvirhe 5 000 syklin v\u00e4lein.<\/p>\n\n\n\n<p>Tietenkin niiss\u00e4 tilanteissa, joissa PTX:\u00e4\u00e4 todella tarvitaan, ja niiden kehitt\u00e4jien osalta, jotka saavat tarpeeksi palkkaa n\u00e4iden asioiden hoitamisesta, ilmaisemme t\u00e4yden ymm\u00e4rryksemme ja kunnioituksemme.<\/p>\n\n\n\n<p>Kaikkien muiden kehitt\u00e4jien on suositeltavaa jatkaa CUDA:n tai muiden CUDA:han (tai MLIR:\u00e4\u00e4n) perustuvien kehittyneiden muunnelmien k\u00e4ytt\u00f6\u00e4.<\/p>","protected":false},"excerpt":{"rendered":"<p>DeepSeek V3 -asiakirjan tiedot: CUDA-monopolin ohittaminen! DeepSeekin kaksi hiljattain julkaistua mallia, DeepSeek-V3 ja DeepSeek-R1, saavuttavat OpenAI:n vastaaviin malleihin verrattavan suorituskyvyn paljon pienemmill\u00e4 kustannuksilla. Ulkomaisten mediatietojen mukaan ne kouluttivat vain kahdessa kuukaudessa MoE-kielimallin, jossa on 671 miljardia parametria, 2 048 parametrin klusterilla....<\/p>","protected":false},"author":2,"featured_media":684,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_kadence_starter_templates_imported_post":false,"_kad_post_transparent":"","_kad_post_title":"","_kad_post_layout":"","_kad_post_sidebar_id":"","_kad_post_content_style":"","_kad_post_vertical_padding":"","_kad_post_feature":"","_kad_post_feature_position":"","_kad_post_header":false,"_kad_post_footer":false,"footnotes":""},"categories":[1],"tags":[],"class_list":["post-710","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-uncategorized"],"_links":{"self":[{"href":"https:\/\/janusai.pro\/fi\/wp-json\/wp\/v2\/posts\/710","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/janusai.pro\/fi\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/janusai.pro\/fi\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/janusai.pro\/fi\/wp-json\/wp\/v2\/users\/2"}],"replies":[{"embeddable":true,"href":"https:\/\/janusai.pro\/fi\/wp-json\/wp\/v2\/comments?post=710"}],"version-history":[{"count":1,"href":"https:\/\/janusai.pro\/fi\/wp-json\/wp\/v2\/posts\/710\/revisions"}],"predecessor-version":[{"id":711,"href":"https:\/\/janusai.pro\/fi\/wp-json\/wp\/v2\/posts\/710\/revisions\/711"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/janusai.pro\/fi\/wp-json\/wp\/v2\/media\/684"}],"wp:attachment":[{"href":"https:\/\/janusai.pro\/fi\/wp-json\/wp\/v2\/media?parent=710"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/janusai.pro\/fi\/wp-json\/wp\/v2\/categories?post=710"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/janusai.pro\/fi\/wp-json\/wp\/v2\/tags?post=710"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}