{"id":710,"date":"2025-01-29T12:02:22","date_gmt":"2025-01-29T12:02:22","guid":{"rendered":"https:\/\/janusai.pro\/?p=710"},"modified":"2025-01-29T12:02:40","modified_gmt":"2025-01-29T12:02:40","slug":"deepseek-v3-paper-details-how-to-bypass-the-cuda-monopoly","status":"publish","type":"post","link":"https:\/\/janusai.pro\/sv\/deepseek-v3-paper-details-how-to-bypass-the-cuda-monopoly\/","title":{"rendered":"Detaljer om DeepSeek V3-papper: Hur man kringg\u00e5r CUDA-monopolet!"},"content":{"rendered":"<div style=\"margin-top: 0px; margin-bottom: 0px;\" class=\"sharethis-inline-share-buttons\" ><\/div>\n<p><a href=\"https:\/\/www.deepseek.com\/\" target=\"_blank\" rel=\"noreferrer noopener nofollow\">DeepSeek V3<\/a> detaljer om uppsatsen: Hur man kringg\u00e5r CUDA-monopolet!<\/p>\n\n\n\n<p>DeepSeeks tv\u00e5 nyligen lanserade modeller, DeepSeek-V3 och DeepSeek-R1, uppn\u00e5r prestanda som \u00e4r j\u00e4mf\u00f6rbara med liknande modeller fr\u00e5n OpenAI till en mycket l\u00e4gre kostnad.<\/p>\n\n\n\n<p>Enligt utl\u00e4ndska medierapporter har de p\u00e5 bara tv\u00e5 m\u00e5nader tr\u00e4nat en MoE-spr\u00e5kmodell med 671 miljarder parametrar p\u00e5 ett kluster med 2.048 H800 GPU:er, vilket \u00e4r 10 g\u00e5nger effektivare \u00e4n den b\u00e4sta AI:n.<\/p>\n\n\n\n<p>Detta genombrott uppn\u00e5ddes inte med hj\u00e4lp av CUDA, utan genom ett stort antal finkorniga optimeringar och anv\u00e4ndningen av NVIDIA:s monteringsliknande PTX-programmering (parallell tr\u00e5dk\u00f6rning).<\/p>\n\n\n\n<p><a href=\"https:\/\/www.deepseek.com\/\" target=\"_blank\" rel=\"noreferrer noopener nofollow\">DeepSeek<\/a> har tvingats ta en annan v\u00e4g \u00e4n OpenAI och andra f\u00f6retag som f\u00f6rlitar sig p\u00e5 brute force-datorkraft under h\u00e5rdvarubegr\u00e4nsningar. Man har anv\u00e4nt sig av en rad tekniska innovationer f\u00f6r att minska modellens effektbehov och samtidigt uppn\u00e5 prestandavinster.<\/p>\n\n\n\n<figure class=\"wp-block-image\"><img decoding=\"async\" src=\"https:\/\/rmy9ct2fln.feishu.cn\/space\/api\/box\/stream\/download\/asynccode\/?code=ZDM1YTM0ODZkYmQzOWNkNzc2ZTBmNzUwY2ZjOWYxMjZfYnUyVHFsb05ya0c1M0hvMGRUbk9CN3FVekR1ZjlQMEZfVG9rZW46TUtzM2JudThpb1p3NHJ4SlZNeWNWdU10bnNnXzE3MzgxNTE4NjQ6MTczODE1NTQ2NF9WNA\" alt=\"\"\/><\/figure>\n\n\n\n<p>N\u00e5gra entusiastiska kommentarer fr\u00e5n n\u00e4tanv\u00e4ndare:<\/p>\n\n\n\n<p>\"Om det i den h\u00e4r v\u00e4rlden finns n\u00e5gra grupper av m\u00e4nniskor som skulle vara galna nog att s\u00e4ga saker som 'CUDA \u00e4r f\u00f6r l\u00e5ngsamt!<\/p>\n\n\n\n<figure class=\"wp-block-image\"><img decoding=\"async\" src=\"https:\/\/rmy9ct2fln.feishu.cn\/space\/api\/box\/stream\/download\/asynccode\/?code=OGEyMmE3ZTJkODlkZDlmNjliZTI1MzI5YTE4ZWE3MjdfWWRBam5VTkVaV1ZsMFg3VzVTRjRDZlUzV2ZiSHZYT2RfVG9rZW46VGZsdWJrTzZHb243OUx4bEZsbmNmMFNzblFiXzE3MzgxNTE4NjQ6MTczODE1NTQ2NF9WNA\" alt=\"\"\/><\/figure>\n\n\n\n<figure class=\"wp-block-image\"><img decoding=\"async\" src=\"https:\/\/rmy9ct2fln.feishu.cn\/space\/api\/box\/stream\/download\/asynccode\/?code=NzI1ZTBlMjJkMDI2N2MyMDdkMGI4YmU5OTJjNGM0YzFfZW4xbjVERFdhdGVObHBDUWR3NVZjbDRSM2lrVDlWRGlfVG9rZW46Q2N5MWIxV2ltbzdmZU14VXI2amNuZDk2bmRkXzE3MzgxNTE4NjQ6MTczODE1NTQ2NF9WNA\" alt=\"\"\/><\/figure>\n\n\n\n<figure class=\"wp-block-image\"><img decoding=\"async\" src=\"https:\/\/rmy9ct2fln.feishu.cn\/space\/api\/box\/stream\/download\/asynccode\/?code=MDMyN2YyYjYwYTNkZDhmMmEyYWY2MjMzZGE3MGM1ZmFfM29veUZrRWdYODRGR0JVdWVVTnRoMzVwTWxjV09CT25fVG9rZW46SVE2dGJWek9Mb29jaTJ4ZnkzWWN5bUZWbnVnXzE3MzgxNTE4NjQ6MTczODE1NTQ2NF9WNA\" alt=\"\"\/><\/figure>\n\n\n\n<div id=\"ez-toc-container\" class=\"ez-toc-v2_0_82_2 counter-hierarchy ez-toc-counter ez-toc-grey ez-toc-container-direction\">\n<div class=\"ez-toc-title-container\">\n<p class=\"ez-toc-title\" style=\"cursor:inherit\">Inneh\u00e5llsf\u00f6rteckning<\/p>\n<span class=\"ez-toc-title-toggle\"><a href=\"#\" class=\"ez-toc-pull-right ez-toc-btn ez-toc-btn-xs ez-toc-btn-default ez-toc-toggle\" aria-label=\"V\u00e4xla inneh\u00e5llsf\u00f6rteckning\"><span class=\"ez-toc-js-icon-con\"><span class=\"\"><span class=\"eztoc-hide\" style=\"display:none;\">Toggle<\/span><span class=\"ez-toc-icon-toggle-span\"><svg style=\"fill: #999;color:#999\" xmlns=\"http:\/\/www.w3.org\/2000\/svg\" class=\"list-377408\" width=\"20px\" height=\"20px\" viewbox=\"0 0 24 24\" fill=\"none\"><path d=\"M6 6H4v2h2V6zm14 0H8v2h12V6zM4 11h2v2H4v-2zm16 0H8v2h12v-2zM4 16h2v2H4v-2zm16 0H8v2h12v-2z\" fill=\"currentColor\"><\/path><\/svg><svg style=\"fill: #999;color:#999\" class=\"arrow-unsorted-368013\" xmlns=\"http:\/\/www.w3.org\/2000\/svg\" width=\"10px\" height=\"10px\" viewbox=\"0 0 24 24\" version=\"1.2\" baseprofile=\"tiny\"><path d=\"M18.2 9.3l-6.2-6.3-6.2 6.3c-.2.2-.3.4-.3.7s.1.5.3.7c.2.2.4.3.7.3h11c.3 0 .5-.1.7-.3.2-.2.3-.5.3-.7s-.1-.5-.3-.7zM5.8 14.7l6.2 6.3 6.2-6.3c.2-.2.3-.5.3-.7s-.1-.5-.3-.7c-.2-.2-.4-.3-.7-.3h-11c-.3 0-.5.1-.7.3-.2.2-.3.5-.3.7s.1.5.3.7z\"\/><\/svg><\/span><\/span><\/span><\/a><\/span><\/div>\n<nav><ul class='ez-toc-list ez-toc-list-level-1' ><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-1\" href=\"https:\/\/janusai.pro\/sv\/deepseek-v3-paper-details-how-to-bypass-the-cuda-monopoly\/#Genius_geeks_fine-tune_PTX_to_maximize_GPU_performance\" >Geniala n\u00f6rdar finjusterar PTX f\u00f6r att maximera GPU-prestanda<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-2\" href=\"https:\/\/janusai.pro\/sv\/deepseek-v3-paper-details-how-to-bypass-the-cuda-monopoly\/#PTX_and_CUDA\" >PTX och CUDA<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-3\" href=\"https:\/\/janusai.pro\/sv\/deepseek-v3-paper-details-how-to-bypass-the-cuda-monopoly\/#However_the_technical_barriers_remain\" >De tekniska hindren kvarst\u00e5r dock<\/a><\/li><\/ul><\/nav><\/div>\n<h2 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Genius_geeks_fine-tune_PTX_to_maximize_GPU_performance\"><\/span>Geniala n\u00f6rdar finjusterar PTX f\u00f6r att maximera GPU-prestanda<span class=\"ez-toc-section-end\"><\/span><\/h2>\n\n\n\n<p>NVIDIA PTX (Parallel Thread Execution) \u00e4r en arkitektur f\u00f6r mellanliggande instruktioner som \u00e4r s\u00e4rskilt utformad f\u00f6r GPU:er och som ligger mellan GPU-programmeringsspr\u00e5k p\u00e5 h\u00f6g niv\u00e5 (t.ex. CUDA C\/C++) eller andra spr\u00e5kfront\u00e4ndar och maskinkod p\u00e5 l\u00e5g niv\u00e5 (streaming assembly eller SASS).<\/p>\n\n\n\n<p>PTX \u00e4r en arkitektur f\u00f6r instruktionsupps\u00e4ttningar p\u00e5 l\u00e5g niv\u00e5 som presenterar GPU:n som en dataparallell datorenhet, vilket m\u00f6jligg\u00f6r finkorniga optimeringar som registerallokering och tuning p\u00e5 tr\u00e5d\/thread-bundle-niv\u00e5 som inte \u00e4r m\u00f6jliga med spr\u00e5k som CUDA C\/C++.<\/p>\n\n\n\n<p>N\u00e4r PTX konverteras till SASS optimeras det f\u00f6r en specifik generation av NVIDIA GPU:er.<\/p>\n\n\n\n<figure class=\"wp-block-image\"><img decoding=\"async\" src=\"https:\/\/rmy9ct2fln.feishu.cn\/space\/api\/box\/stream\/download\/asynccode\/?code=MGIwZTQ0ZDdhMTgxYTBlMmEzZDE5OTczN2ZlZmEzNGFfc3I3T2U0UzNCOGdjd1ZHcktHd1hkd1RpcXlLbkxrU1FfVG9rZW46Vk05WWJ0a1Bob3NkYzl4bXpFc2N6anI3bktjXzE3MzgxNTE4NjQ6MTczODE1NTQ2NF9WNA\" alt=\"\"\/><\/figure>\n\n\n\n<p>Vid tr\u00e4ning av V3-modellen konfigurerade DeepSeek om NVIDIA H800 GPU:<\/p>\n\n\n\n<p>Av de 132 k\u00e4rnorna i stream-processorn allokerades 20 f\u00f6r kommunikation mellan servrar, fr\u00e4mst f\u00f6r datakomprimering och dekomprimering, f\u00f6r att bryta igenom processorns anslutningsgr\u00e4ns och f\u00f6rb\u00e4ttra hastigheten p\u00e5 transaktionshanteringen.<\/p>\n\n\n\n<p>F\u00f6r att maximera prestandan har DeepSeek ocks\u00e5 implementerat avancerade pipelining-algoritmer genom ytterligare finkorniga justeringar p\u00e5 tr\u00e5d\/tr\u00e5dbuntniv\u00e5.<\/p>\n\n\n\n<p>Dessa optimeringar g\u00e5r l\u00e5ngt ut\u00f6ver niv\u00e5n f\u00f6r konventionell CUDA-utveckling, men \u00e4r extremt sv\u00e5ra att underh\u00e5lla. Det \u00e4r dock just denna optimeringsniv\u00e5 som till fullo visar DeepSeek-teamets enast\u00e5ende tekniska kapacitet.<\/p>\n\n\n\n<figure class=\"wp-block-image\"><img decoding=\"async\" src=\"https:\/\/rmy9ct2fln.feishu.cn\/space\/api\/box\/stream\/download\/asynccode\/?code=MDk2ZDMyM2IzOGU5OWNmN2JhOTY2ZDZmMjhkOWYwZGFfUnFiV0hvbnQ0ZUFHSHg3WHpyMW5jYTRvMURPM1pDSTZfVG9rZW46QnZVNWJyUzBDb2FWeE54Ym4ybGNZNXlnbmFnXzE3MzgxNTE4NjQ6MTczODE1NTQ2NF9WNA\" alt=\"\"\/><\/figure>\n\n\n\n<p>I V3-dokumentet n\u00e4mns specifikt detaljer om PTX<\/p>\n\n\n\n<p>Detta beror p\u00e5 att f\u00f6retag som DeepSeek, under det dubbla trycket av en global GPU-brist och amerikanska restriktioner, var tvungna att s\u00f6ka innovativa l\u00f6sningar.<\/p>\n\n\n\n<p>Lyckligtvis har de gjort betydande genombrott inom detta omr\u00e5de.<\/p>\n\n\n\n<p>En utvecklare anser att \"GPU-programmering p\u00e5 l\u00e5g niv\u00e5 \u00e4r r\u00e4tt v\u00e4g att g\u00e5. Ju mer optimering, desto l\u00e4gre kostnad, eller prestandabudget som kan anv\u00e4ndas f\u00f6r andra framsteg utan ytterligare utgifter.\"<\/p>\n\n\n\n<figure class=\"wp-block-image\"><img decoding=\"async\" src=\"https:\/\/rmy9ct2fln.feishu.cn\/space\/api\/box\/stream\/download\/asynccode\/?code=MmEzYzA5ZTVmNjE4ZTlhMWE0NWU1ZTgyZTA2NmUxMDJfUWdNb21QeEFtUWlFSFA1aGFWZEZJMzlUNjdPT3J5NXRfVG9rZW46RWtaaGJ2UlBHbzk2VWF4TmxkeGNPeGdKblJnXzE3MzgxNTE4NjQ6MTczODE1NTQ2NF9WNA\" alt=\"\"\/><\/figure>\n\n\n\n<p>Detta genombrott har haft en betydande inverkan p\u00e5 marknaden och vissa investerare tror att den nya modellen kommer att minska efterfr\u00e5gan p\u00e5 h\u00f6gpresterande h\u00e5rdvara, vilket kan p\u00e5verka f\u00f6rs\u00e4ljningsutvecklingen f\u00f6r f\u00f6retag som NVIDIA.<\/p>\n\n\n\n<p>Branschveteraner, d\u00e4ribland Intels tidigare VD Pat Gelsinger, anser dock att AI-applikationer kan utnyttja all tillg\u00e4nglig datorkraft fullt ut.<\/p>\n\n\n\n<p>Gelsinger ser DeepSeeks genombrott som ett nytt s\u00e4tt att integrera AI-funktioner i billiga enheter f\u00f6r massmarknaden.<\/p>\n\n\n\n<figure class=\"wp-block-image\"><img decoding=\"async\" src=\"https:\/\/rmy9ct2fln.feishu.cn\/space\/api\/box\/stream\/download\/asynccode\/?code=NzgzZjM2ZTVlOWM0OWI1MDE5OTI1NTQwNWRjYTI5Y2NfZ25sc2tPNFJ1UHZwemp1WEVlclU1cloxZXI5aHJMbEZfVG9rZW46SHlGTGJnNHpHbzNzbnd4bkxPQ2N4T0RyblZkXzE3MzgxNTE4NjQ6MTczODE1NTQ2NF9WNA\" alt=\"\"\/><\/figure>\n\n\n\n<h2 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"PTX_and_CUDA\"><\/span>PTX och CUDA<span class=\"ez-toc-section-end\"><\/span><\/h2>\n\n\n\n<p>Betyder d\u00e5 DeepSeeks ankomst att utvecklingen av avancerad LLM inte l\u00e4ngre kr\u00e4ver storskaliga GPU-kluster?<\/p>\n\n\n\n<p>Kommer de enorma investeringarna i datorresurser av Google, <a href=\"https:\/\/openai.com\/\" target=\"_blank\" rel=\"noreferrer noopener nofollow\">OpenAI<\/a>Meta och xAI i slut\u00e4ndan g\u00e5 till spillo? Det allm\u00e4nna samf\u00f6rst\u00e5ndet bland AI-utvecklare \u00e4r att detta inte \u00e4r fallet.<\/p>\n\n\n\n<p>Det \u00e4r dock s\u00e4kert att det fortfarande finns en enorm potential att ta tillvara n\u00e4r det g\u00e4ller databehandling och algoritmoptimering, och mer innovativa optimeringsmetoder kommer s\u00e4kert att dyka upp i framtiden.<\/p>\n\n\n\n<p>Med V3-modellen av DeepSeek open sourced avsl\u00f6jas detaljerna i detalj i den tekniska rapporten.<\/p>\n\n\n\n<p>Rapporten dokumenterar de djupg\u00e5ende underliggande optimeringar som DeepSeek har utf\u00f6rt. Kort sagt kan graden av optimering sammanfattas som att \"de har byggt om hela systemet fr\u00e5n grunden\".<\/p>\n\n\n\n<p>Som n\u00e4mnts ovan anpassade DeepSeek GPU:ns k\u00e4rnber\u00e4kningsenheter (streaming multiprocessor cores, SMs) f\u00f6r att uppfylla specifika behov n\u00e4r V3 tr\u00e4nades med H800 GPU.<\/p>\n\n\n\n<p>Av de totalt 132 SM:en tilldelades 20 stycken specifikt f\u00f6r att hantera kommunikationsuppgifter mellan servrar snarare \u00e4n databehandlingsuppgifter.<\/p>\n\n\n\n<p>Anpassningen g\u00f6rs p\u00e5 PTX-niv\u00e5 (Parallel Thread Execution), vilket \u00e4r NVIDIA GPU:ns instruktionsupps\u00e4ttning p\u00e5 l\u00e5g niv\u00e5.<\/p>\n\n\n\n<p>PTX k\u00f6rs p\u00e5 en niv\u00e5 som ligger n\u00e4ra assembler och m\u00f6jligg\u00f6r finkorniga optimeringar som registerallokering och tuning p\u00e5 tr\u00e5d\/thread-bundle-niv\u00e5. Denna finstyrning \u00e4r dock komplex och sv\u00e5r att underh\u00e5lla.<\/p>\n\n\n\n<p>Det \u00e4r d\u00e4rf\u00f6r som utvecklare vanligtvis f\u00f6redrar att anv\u00e4nda h\u00f6gniv\u00e5programmeringsspr\u00e5k som CUDA, som ger tillr\u00e4ckliga prestandaoptimeringar f\u00f6r de flesta parallella programmeringsuppgifter och eliminerar behovet av l\u00e5gniv\u00e5optimeringar.<\/p>\n\n\n\n<p>Men n\u00e4r det g\u00e4ller att maximera effektiviteten hos GPU-resurserna och uppn\u00e5 specifika optimeringskrav m\u00e5ste utvecklarna anv\u00e4nda PTX.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"However_the_technical_barriers_remain\"><\/span>De tekniska hindren kvarst\u00e5r dock<span class=\"ez-toc-section-end\"><\/span><\/h2>\n\n\n\n<p>I detta avseende sa Internetanv\u00e4ndaren Ian Cutress: \"Deepseeks anv\u00e4ndning av PTX eliminerar inte de tekniska hindren f\u00f6r CUDA.\"<\/p>\n\n\n\n<figure class=\"wp-block-image\"><img decoding=\"async\" src=\"https:\/\/rmy9ct2fln.feishu.cn\/space\/api\/box\/stream\/download\/asynccode\/?code=YTFkNWFkMTNiYjQzNDZiMDI3ZmYxYjA3MzExYjE1MGRfemNRaFdmM1R4MTMwUWVWTUxxbHN2SjZYNEhvazBrZlNfVG9rZW46SFlEU2IwNEd3b29kMGl4cmVaOGNTcHFZbmxjXzE3MzgxNTE4NjQ6MTczODE1NTQ2NF9WNA\" alt=\"\"\/><\/figure>\n\n\n\n<p>CUDA \u00e4r ett h\u00f6gniv\u00e5spr\u00e5k. Det g\u00f6r det enklare att utveckla bibliotek och gr\u00e4nssnitt med NVIDIA GPU:er och st\u00f6der snabb iterativ utveckling.<\/p>\n\n\n\n<p>CUDA kan optimera prestandan genom att finjustera den underliggande koden (t.ex. PTX), och de grundl\u00e4ggande biblioteken \u00e4r redan kompletta. De flesta programvaror p\u00e5 produktionsniv\u00e5 \u00e4r f\u00f6r n\u00e4rvarande byggda p\u00e5 CUDA.<\/p>\n\n\n\n<p>PTX \u00e4r mer likt ett direkt f\u00f6rst\u00e5eligt assembleringsspr\u00e5k f\u00f6r GPU:n. Det fungerar p\u00e5 en l\u00e5g niv\u00e5 och m\u00f6jligg\u00f6r optimering p\u00e5 mikroniv\u00e5.<\/p>\n\n\n\n<p>Om du v\u00e4ljer att programmera i PTX inneb\u00e4r det att inga av de tidigare n\u00e4mnda inbyggda CUDA-biblioteken kan anv\u00e4ndas. Detta \u00e4r en mycket tr\u00e5kig uppgift som kr\u00e4ver djupg\u00e5ende expertis inom h\u00e5rdvara och runtime-fr\u00e5gor.<\/p>\n\n\n\n<p>Men om utvecklarna f\u00f6rst\u00e5r vad de g\u00f6r kan de faktiskt uppn\u00e5 b\u00e4ttre prestanda och optimering vid k\u00f6rning.<\/p>\n\n\n\n<figure class=\"wp-block-image\"><img decoding=\"async\" src=\"https:\/\/rmy9ct2fln.feishu.cn\/space\/api\/box\/stream\/download\/asynccode\/?code=MGU3N2MyY2Y5NDg0MzAxYjkzNzI4MDg3YTRjN2JiNjJfSTI4Um5wZkxwamJMNjRLdmx6TnFmcTlhVDhLbTEyYlhfVG9rZW46SVpVcWJ4TmRtbzdYRjF4RFk5SWN4OWdjbmRlXzE3MzgxNTE4NjQ6MTczODE1NTQ2NF9WNA\" alt=\"\"\/><\/figure>\n\n\n\n<p>F\u00f6r n\u00e4rvarande \u00e4r det fortfarande CUDA som \u00e4r huvudsp\u00e5ret i NVIDIA:s ekosystem.<\/p>\n\n\n\n<p>Utvecklare som vill f\u00e5 ut 10-20% extra prestanda eller energieffektivitet fr\u00e5n sin ber\u00e4kningsbelastning, till exempel f\u00f6retag som distribuerar modeller i molnet och s\u00e4ljer token-tj\u00e4nster, har verkligen optimerat fr\u00e5n CUDA-niv\u00e5n till PTX-niv\u00e5n. De \u00e4r villiga att investera tid eftersom det \u00e4r v\u00e4rt det i det l\u00e5nga loppet.<\/p>\n\n\n\n<p>Det b\u00f6r noteras att PTX vanligtvis \u00e4r optimerad f\u00f6r en specifik maskinvarumodell och \u00e4r sv\u00e5r att porta mellan olika maskinvaror om inte anpassningslogiken \u00e4r specialskriven.<\/p>\n\n\n\n<p>Dessutom kr\u00e4ver manuell inst\u00e4llning av ber\u00e4kningsk\u00e4rnan en hel del uth\u00e5llighet, mod och en speciell f\u00f6rm\u00e5ga att h\u00e5lla sig lugn, eftersom programmet kan ha ett minnes\u00e5tkomstfel var 5.000:e cykel.<\/p>\n\n\n\n<p>F\u00f6r de scenarier d\u00e4r PTX verkligen beh\u00f6vs, och f\u00f6r de utvecklare som f\u00e5r tillr\u00e4ckligt betalt f\u00f6r att hantera dessa fr\u00e5gor, uttrycker vi naturligtvis v\u00e5r fulla f\u00f6rst\u00e5else och respekt.<\/p>\n\n\n\n<p>F\u00f6r alla andra utvecklare \u00e4r det l\u00e4mpligt att forts\u00e4tta anv\u00e4nda CUDA eller andra avancerade varianter baserade p\u00e5 CUDA (eller MLIR).<\/p>","protected":false},"excerpt":{"rendered":"<p>Detaljer om DeepSeek V3-papper: Hur man kringg\u00e5r CUDA-monopolet! DeepSeeks tv\u00e5 nyligen lanserade modeller, DeepSeek-V3 och DeepSeek-R1, uppn\u00e5r prestanda som kan j\u00e4mf\u00f6ras med liknande modeller fr\u00e5n OpenAI till en mycket l\u00e4gre kostnad. Enligt utl\u00e4ndska medierapporter har de p\u00e5 bara tv\u00e5 m\u00e5nader tr\u00e4nat en MoE-spr\u00e5kmodell med 671 miljarder parametrar p\u00e5 ett kluster med 2 048 datorer....<\/p>","protected":false},"author":2,"featured_media":684,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_kadence_starter_templates_imported_post":false,"_kad_post_transparent":"","_kad_post_title":"","_kad_post_layout":"","_kad_post_sidebar_id":"","_kad_post_content_style":"","_kad_post_vertical_padding":"","_kad_post_feature":"","_kad_post_feature_position":"","_kad_post_header":false,"_kad_post_footer":false,"footnotes":""},"categories":[1],"tags":[],"class_list":["post-710","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-uncategorized"],"_links":{"self":[{"href":"https:\/\/janusai.pro\/sv\/wp-json\/wp\/v2\/posts\/710","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/janusai.pro\/sv\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/janusai.pro\/sv\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/janusai.pro\/sv\/wp-json\/wp\/v2\/users\/2"}],"replies":[{"embeddable":true,"href":"https:\/\/janusai.pro\/sv\/wp-json\/wp\/v2\/comments?post=710"}],"version-history":[{"count":1,"href":"https:\/\/janusai.pro\/sv\/wp-json\/wp\/v2\/posts\/710\/revisions"}],"predecessor-version":[{"id":711,"href":"https:\/\/janusai.pro\/sv\/wp-json\/wp\/v2\/posts\/710\/revisions\/711"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/janusai.pro\/sv\/wp-json\/wp\/v2\/media\/684"}],"wp:attachment":[{"href":"https:\/\/janusai.pro\/sv\/wp-json\/wp\/v2\/media?parent=710"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/janusai.pro\/sv\/wp-json\/wp\/v2\/categories?post=710"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/janusai.pro\/sv\/wp-json\/wp\/v2\/tags?post=710"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}