群发资讯网

标签: cuda

AI写CUDA算子国产芯片不行?上交方法直线拉升,DeepSeek也适用

AI写CUDA算子国产芯片不行?上交方法直线拉升,DeepSeek也适用

GPT-5.2 写 CUDA 算子,正确率 92%。同样的模型,给华为 Ascend NPU 写算子,正确率只有 4%。不是模型变笨了,是它压根没见过这类代码。公开数据几乎为零,专家寥寥无几,编译报错你还看不懂—这就是"新硬件冷启动"的真实处境...
中科院团队提出SparseRL,深度强化学习可自动生成高性能CUDA代码

中科院团队提出SparseRL,深度强化学习可自动生成高性能CUDA代码

近日,中科院计算所团队提出了一种名为 SparseRL 的新框架,首次将深度强化学习引入稀疏 CUDA 代码生成任务。简单来说,就是让 AI 学会根据稀疏矩阵的结构,自动生成最优的 CUDA 实现代码。实验显示,在经典的 SpMV 任务上,...
模型也是一种“CUDA”英伟达为何要260亿美金砸向开源模型?

模型也是一种“CUDA”英伟达为何要260亿美金砸向开源模型?

通俗来说,CUDA 的库就是英伟达替开发者写好的现成工具包,开发者不需要从零开始,调用 CUDA 中对应的库就能完成特定任务。最主流的 AI 框架,底层都对 CUDA 做了深度优化。这意味着全球绝大多数 AI 模型的训练和推理,实际上...
有人问我,英伟达到底凭什么这么值钱?我说,你去看CUDA就明白了。CUD

有人问我,英伟达到底凭什么这么值钱?我说,你去看CUDA就明白了。CUD

有人问我,英伟达到底凭什么这么值钱?我说,你去看CUDA就明白了。CUDA是2006年英伟达推出的一套编程平台,就是让程序员能用GPU运行各种计算,就这么个东西,现在成了整个AI行业的命门,几乎所有大模型都运行在上面。为什么别人绕不开它?有四道墙。第一道墙,是开发者,全球超过400万开发者基于CUDA写代码。这些人花了大量时间学习这套东西,写了大量代码,你让他们换到AMD的ROCm?他们宁可多花钱买英伟达,也不想重来一遍。这不是技术问题,这是人的问题。第二道墙,是软件库。英伟达这些年攒了一堆现成的工具:TensorRT负责推理加速,cuDNN专门优化神经网络,NCCL搞定多卡通信。这些库都是跟英伟达的硬件深度绑定优化的,换块AMD的卡,你得重新验证每一个库的表现,费时费力,结果还不一定效果好。第三道墙,是迁移成本,一家公司的AI模型如果基于CUDA开发,换平台不只是改几行代码就可以了,团队要重新培训,文档要重新写,踩过的坑要重新踩一遍。这笔账算下来,很多公司直接放弃,乖乖续费买英伟达的卡。第四道墙,是时间。英伟达搞CUDA将近二十年了,AMD的ROCm才刚起步,哪怕其他厂家每年进步30%,追上也要七八年。AI行业哪等得了那么久。当然,CUDA的护城河也不是铁板一块。谷歌早就在用自己的TPU运行内部任务,Meta、OpenAI也在用AMD的卡做部分工作负载。PyTorch现在加了编译器层,理论上可以让代码不那么依赖底层芯片。但这些裂缝,还远没有变成缺口。真正能撼动英伟达的,不是哪家芯片公司做出了更快的硬件,而是整个行业攒出了一套足够好用的"翻译层",让代码不用改就能在任何芯片上完美运行。在那之前,英伟达还是老大
今年是CUDA的二十周年。CUDA正是英伟达护城河的核心逻辑。二十年前,英伟达押

今年是CUDA的二十周年。CUDA正是英伟达护城河的核心逻辑。二十年前,英伟达押

如何破解CUDA困局:打破英伟达20年霸权,国产算力真正站起来了

如何破解CUDA困局:打破英伟达20年霸权,国产算力真正站起来了

英伟达护城河被AI攻破,字节清华CUDA Agent,让人人能搓CUDA内核

英伟达护城河被AI攻破,字节清华CUDA Agent,让人人能搓CUDA内核

近日,来自字节跳动 Seed 团队和清华大学 AIR 的新研究 CUDA Agent,在 AI 领域引发了不小的轰动。研究人员训练了一个能够编写快速 CUDA 内核的模型:不只是正确的内核,而是真正经过优化的内核。在简单/中等内核上,它的性能...
目前的格局是:英伟达以超过90%的市场份额稳居绝对主导,而AMD作为最主要的挑战

目前的格局是:英伟达以超过90%的市场份额稳居绝对主导,而AMD作为最主要的挑战

肌肉车黄金时代绝唱!1971款普利茅斯Hemi 'Cuda敞篷330万美元落槌

肌肉车黄金时代绝唱!1971款普利茅斯Hemi 'Cuda敞篷330万美元落槌

在Mopar肌肉车的收藏版图中,“稀有”二字有着无数种诠释,但1971款普利茅斯Hemi 'Cuda敞篷版,将这份稀有推到了极致—全年仅量产12台,搭载传奇426 Hemi引擎,既是普利茅斯E-body系列末代敞篷车型,也是426 Hemi引擎的末代...
BarraCUDA是一个基于C99编写的开源CUDA编译器,可直接将

BarraCUDA是一个基于C99编写的开源CUDA编译器,可直接将

英伟达的GPU是AI算力最优解吗?能打破英伟达CUDA的垄断地位吗?

英伟达的GPU是AI算力最优解吗?能打破英伟达CUDA的垄断地位吗?

当然一云多芯的调度,英伟达也是有优势的,它基于CUDA打造基于英伟达的GPU算力调动中心,而且还提供了AI算子库以及许多开发者,对于很多中小型企业非常有利!但对于大型企业和政企可能需要打造专属的体系,可能需要摆脱对于英...

CUDA护城河正在失效,英伟达试图建立新的壁垒

导读:CUDA护城河正在失效,英伟达自己比任何人都清楚这一点。收购 Groq 以及推出一系列专用芯片,并非简单的产品线扩张,而是黄仁勋在 CUDA 的旧城墙之外,被迫构建的一套全新的壁垒。算力战争的终局,将不再是单一软件生态的...
为什么中国不拆开英伟达显卡研究,从而造出自己的国产显卡?显卡内部集成数百亿晶体

为什么中国不拆开英伟达显卡研究,从而造出自己的国产显卡?显卡内部集成数百亿晶体

凡是号称“国产英伟达”的企业,一定不会是“国产的英伟达”,为什么?首先,真正

凡是号称“国产英伟达”的企业,一定不会是“国产的英伟达”,为什么?首先,真正

真正让硅谷发抖的,从来不是一纸禁令,而是中国工程师在没有CUDA、没有A10

真正让硅谷发抖的,从来不是一纸禁令,而是中国工程师在没有CUDA、没有A10

天下苦CUDA久矣,又一国产方案上桌了

天下苦CUDA久矣,又一国产方案上桌了

终于,那个让开发者喊了无数次“天下苦CUDA久矣”的僵局,现在迎来了一个不一样的国产答案。KernelCAT:计算加速专家级别的Agent 这几年,AI领域的热闹几乎是肉眼可见的。模型在密集发布,应用数据持续走高,看上去一切都在...
为什么中国不拆开英伟达显卡研究,从而造出自己的国产显卡?就这么说吧,即使完整拆开

为什么中国不拆开英伟达显卡研究,从而造出自己的国产显卡?就这么说吧,即使完整拆开

“什么?中国不买了?!”听说消息的特朗普差点把桌上的汉堡惊掉,“我顶着一屋子人

“什么?中国不买了?!”听说消息的特朗普差点把桌上的汉堡惊掉,“我顶着一屋子人

“什么?中国不买了?!”听说消息的特朗普差点把桌上的汉堡惊掉,“我顶着一屋子人的反对特意开的绿灯——那些家伙吵得比推特评论区还热闹!结果他们居然…不买了?!”特朗普这回是真的被整不会了。美国本以为自己掌握了主动权,却被中国这一出“说不买就不买”的反转打了个措手不及。美国政府这回的操作堪称戏剧。前脚还对中国芯片企业严防死守,后脚却又突然宣布“有限开放”:英伟达可以给中国客户卖H20芯片,但条件是每卖一块都得把四分之一的收入交到美国口袋里。在特朗普看来,这是笔稳赚不赔的买卖——既能用“阉割版”芯片赚得盆满钵满,又能靠技术生态绑定中国企业,顺带还能堵上国会山那群鹰派的嘴。可他万万没料到,中国企业压根不接这茬,让这场精心设计的“交易”落了空。这款芯片本就是英伟达为了规避美国出口禁令,专门给中国市场定制的“特供版”,性能只有其旗舰产品H100的15%-30%,仅能满足部分AI推理场景,完全达不到万亿级大模型训练的核心需求。说白了,这就是一款被刻意削弱性能、用来清库存的产品,美国所谓的“开放”,本质上是想用残次货换真金白银。更关键的是,美国的政策反复早已消耗了中国企业的信任。去年4月,特朗普政府刚以“国家安全”为由,禁止英伟达对华销售H20芯片,导致英伟达取消大量订单、损失超55亿美元,股价直接暴跌6%。短短三个月后,又突然松口放行,还附加了25%的收入分成条件,这种朝令夕改的操作,让中国企业不得不警惕“合规陷阱”——今天能放行H20,明天说不定就会再次禁售,谁也不愿把产业链安全绑在反复无常的美国政策上。特朗普之所以敢拍板这项政策,无非是笃定中国离不开英伟达的芯片和其背后的CUDA生态。可他忽略了一个关键变化:在持续的技术封锁下,中国国产芯片已经实现了从“可用”到“可采”的突破,不再需要靠“残次货”将就。中国信通院的数据显示,2024年国产AI芯片在数据中心的份额已从12%跃升至25%,华为昇腾910B、寒武纪思元系列等产品订单激增,其中昇腾910B在推理算力领域已能自给自足,其CANN生态还能兼容80%的CUDAAPI,支持85%的CUDA算子自动转换,虽然存在15%-20%的性能损耗,但完全能满足主流场景需求。美国的策略逻辑其实很清晰:中国能生产什么,就放开什么,试图用成熟生态和价格优势冲击国产替代节奏。就像中关村信息消费联盟理事长项立刚分析的,对于中国急需的高端芯片,美国会全力压制;等中国快要实现突破、占据一定市场份额时,就放开低端产品进行市场倾销。可这次H20的放行,显然找错了时机——中国不仅有了替代选择,更看清了美国维持技术霸权的真实目的:用“低性能+强生态”的组合,延续对中国AI产业的上游掌控,让中国始终无法摆脱其技术闭环。这场博弈的背后,还有美国内部的激烈分歧。特朗普顶着国会山的一片反对声开绿灯,众议院外交事务委员会直接召开听证会炮轰,前副国家安全顾问马特·波廷格直言,这一决定会“极大助推中国军事现代化进程”,损害美国在AI竞赛中的优势。而白宫方面则极力辩护,称H20并非最先进芯片,且出口总量被限制在美国客户采购量的50%以内,试图在商业利益与国家安全之间找平衡。可特朗普自己的一句话道破了真相:“中国想要它们,我们将从这些芯片销售中获得25%的收入,事儿就是这么回事儿。”中国企业的拒绝,本质上是对这种不平等博弈的主动破局。一方面,头部科技企业早已通过多种渠道获得了比H20更先进的芯片,没必要花高价买性能缩水的产品。另一方面,中小企也更倾向于选择国产芯片,规避供货不稳定和数据安全风险。就连英伟达CEO黄仁勋也坦言,不确定中国是否会接受这类芯片,而白宫人工智能负责人戴维·萨克斯更是直接透露,中方拒绝H20的核心原因,是想要实现半导体独立。如今的芯片战场,早已不是美国单方面掌控话语权。H20的遇冷,印证了一个道理:技术封锁倒逼出来的自主创新,远比任何“有限开放”都更有力量。中国企业正在加速补全生态短板,寒武纪已募资近40亿元用于高端芯片研发,华为也在持续优化昇腾生态,力求降低对CUDA的依赖。美国想靠“残次货+分成”的套路维持霸权,显然已经行不通了。这场博弈远未结束,英伟达已在为中国市场开发新型B30芯片,试图用更低的价格和“合规”优势卷土重来。但可以肯定的是,中国走自主可控之路的决心不会动摇。特朗普的汉堡或许只是惊掉一时,而美国赖以维持科技霸权的固有认知,恐怕要被彻底颠覆了——当中国不再需要“施舍式”的技术开放,这场博弈的规则,就该由我们来定了。

华人团队实现AI自动寻优,矩阵乘法核心首超CUDA闭源库

“矩阵乘法是英伟达 CUDA 生态最核心的护城河之一。而我们打造的 CUDA-L2 在大规模、系统性的评测中,超越英伟达针对该核心算子的闭源优化方案。我们不仅实现了超越,而且将方法开源,这对于打破技术壁垒具有标志性意义。...
DeepReinforce突破:AI生成超越英伟达官方性能的CUDA核心代码

DeepReinforce突破:AI生成超越英伟达官方性能的CUDA核心代码

研究团队开发了一个名为CUDA-L2的系统,这个系统结合了大型语言模型和强化学习技术。可以把它理解为一个会编程的AI厨师,它不仅懂得基本的"烹饪技巧"(编程知识),还能通过不断尝试和改进来发现更好的"菜谱"(优化策略)。...
当年读研的时候习以为常的CUDA,铸就了老黄的万亿帝国;导师在组会上频繁提起的辛

当年读研的时候习以为常的CUDA,铸就了老黄的万亿帝国;导师在组会上频繁提起的辛

买茶送显卡嘛?

买茶送显卡嘛?

Anthropic打响「去CUDA」第一枪!210亿美元豪购谷歌100万块TPU

这意味着,Anthropic自有超算将不再依赖CUDA生态,不再被云厂商「算力税」抽成,将算力主权握在手中。有网友表示,这显然是一件大事。谷歌现在大力推行商用芯片战略,这将在未来催生一个基于TPU构建的生态系统。毕竟,谷歌已经...
摩尔线程的"曲线救国"?国产芯片生态正面临"兼容CUDA快速落地"与"自研架构

摩尔线程的"曲线救国"?国产芯片生态正面临"兼容CUDA快速落地"与"自研架构

算力之战白热化:谷歌开源策略+Meta生态倒戈,欲打破英伟达CUDA生态垄断

据报道,谷歌(GOOGL.US)正设法削弱英伟达(NVDA.US)凭借CUDA软件平台建立起来的优势,并获得了Meta(META.US)的一定支持。有知情人士称,这家搜索巨头正努力让其自己的AI芯片TPU更顺滑地运行人工智能框架PyTorch。值得注意的是,...
摩尔线程与英伟达的差距是巨大,这个必须清醒正视!-技术层面:英伟达已迈入4n

摩尔线程与英伟达的差距是巨大,这个必须清醒正视!-技术层面:英伟达已迈入4n

现实和残酷,英伟达H200在算力、显存、生态三个维度全面碾压摩尔线程现有产品,但

现实和残酷,英伟达H200在算力、显存、生态三个维度全面碾压摩尔线程现有产品,但

现实和残酷,英伟达H200在算力、显存、生态三个维度全面碾压摩尔线程现有产品,

现实和残酷,英伟达H200在算力、显存、生态三个维度全面碾压摩尔线程现有产品,

英伟达的三大护城河,一是掌握台积电的先进制程产能,二是CUDA生态,三...

英伟达的三大护城河,一是掌握台积电的先进制程产能,二是CUDA生态,三...

英伟达算力霸权生裂痕:谷歌TPU携30%-40%成本优势,撕开CUDA护城河英伟

英伟达算力霸权生裂痕:谷歌TPU携30%-40%成本优势,撕开CUDA护城河英伟

华为将发布系统级创新技术,打破CUDA生态锁定华为将于11月21日在上海

华为将发布系统级创新技术,打破CUDA生态锁定华为将于11月21日在上海

华为CANN升级发布:国产AI算力生态的“CUDA时刻”?根据最新动态,华为

华为CANN升级发布:国产AI算力生态的“CUDA时刻”?根据最新动态,华为

成本0.3美元,耗时26分钟!CudaForge:颠覆性低成本CUDA优化框架

成本0.3美元,耗时26分钟!CudaForge:颠覆性低成本CUDA优化框架

CUDA 代码的性能对于当今的模型训练与推理至关重要,然而手动编写优化 CUDA Kernel 需要很高的知识门槛和时间成本。与此同时,近年来 LLM 在 Code 领域获得了诸多成功。这推动人们去探索如何利用 LLM 来编写优化 CUDA kernel。...
美国终于想明白了:从前中国没有的芯片,他不卖给中国,结果中国开始自主研发,没过几

美国终于想明白了:从前中国没有的芯片,他不卖给中国,结果中国开始自主研发,没过几

微软开发工具包打破NVIDIA护城河! AMD GPU可运行CUDA代码

微软开发工具包打破NVIDIA护城河! AMD GPU可运行CUDA代码

CUDA真是NVIDIA绝对牢不可破的生态吗?

CUDA真是NVIDIA绝对牢不可破的生态吗?

CUDA真是NVIDIA绝对牢不可破的生态吗?未来不会再有对手了吗?所有的科学计算都只能使用n卡?CUDA 作为 NVIDIA 打造的计算生态核心,凭借十余年的积累构建了难以撼动的行业优势,成为科学计算、AI 训练等高性能场景的主流选择...

黄仁勋游说失败!特朗普禁售+中国禁令,曙光超节点接盘CUDA生态黄仁勋忙活

黄仁勋游说失败!特朗普禁售+中国禁令,曙光超节点接盘CUDA生态黄仁勋忙活半天,反复游说特朗普政府,想让自家芯片对华出口,结果被美国国务卿鲁比奥这些高官集体反对,特朗普最终拍板,最先进的芯片绝不给中国。本以为低配版还有机会,没想到中国直接釜底抽薪。中国新规明确,国资数据中心必须用国产AI芯片,这一下就粉碎了英伟达重夺中国市场的希望。作为AI新基建项目,曙光640超节点做出回应,较384完成新一轮跃迁。生态层面主打兼容ai主流,包括CUDA,把英伟达多年积累的开发者生态直接接过来了。性能层面,单机柜64卡超高速互联,双scaleX640超节点组成千卡级卡计算单元,全球首个。这波操作太妙了,特朗普这边骚操作,中国这边就用政策铺路,用产品硬刚。曙光作为国家队的代表,出手恰逢其时!
英伟达的市值已经超过50,000亿美元,这是什么概念呢?如果折算成人

英伟达的市值已经超过50,000亿美元,这是什么概念呢?如果折算成人

英伟达的市值已经超过50,000亿美元,这是什么概念呢?如果折算成人民币,它市值超过35万亿人民币,这个市值差不多相当于整个A股的1/3了,这个确实有点太夸张。另外如果把它当做一个经济体来看待,它将是仅次于美国和中国的第三大经济体,比日本、德国的经济体量还要大。面对这样一个近乎神话的数字,一个无法回避的问题浮现在每个人心头:这到底是价值的真实体现,还是一场史上最华丽的泡沫?要理解英伟达的疯狂,我们得先搞清楚它在当下这个时代扮演的角色。现在全球最火的是什么?是人工智能。而人工智能,尤其是大模型的训练和推理,需要什么?需要算力,海量的算力。这就好比一场席卷全球的数字淘金热,所有人都想挖到属于自己的金矿,而英伟达,就是那个在淘金热中唯一能稳定提供高质量铲子和牛仔裤的“卖铲人”。它的GPU,特别是H100、H200这些顶级芯片,成了各大科技巨头、初创公司甚至国家实验室争抢的硬通货。微软、谷歌、Meta、亚马逊这些云服务巨头,每年都要花费数百亿美元来采购英伟达的芯片,建设自己的AI算力中心。这种需求不是零星的,而是结构性的、饥渴的,它直接构成了英伟达营收和利润暴增的坚实基础。但仅仅把英伟达的成功归功于“卖铲”,未免有些小看了它的护城河。真正让竞争对手望尘莫及的,是它十几年前就埋下的一个“王炸”——CUDA生态系统。说白了,CUDA就是一个软件平台,它让开发者能够轻松地调用英伟达GPU的强大算力。经过十多年的发展,数百万开发者在这个平台上构建了各种各样的AI模型和应用,形成了一个庞大且难以迁移的生态。这就好比所有人都习惯了用iOS系统,你让他换到安卓,不仅需要重新学习,所有买的APP、存的数据都得转移,成本极高。对于AI公司来说,更换GPU供应商,意味着要重写大量代码,重新调试模型,这个时间和金钱成本是难以估量的。所以,即便AMD、英特尔也在奋力追赶,推出了自己的AI芯片,但在CUDA这座高墙面前,它们想要撼动英伟达的地位,难度不亚于重建一个移动互联网生态。然而,任何事物都有两面性。当我们为英伟达的“无敌”而惊叹时,一些危险的信号也在悄然浮现。最直接的质疑,就是它那高到令人咋舌的估值。按照市盈率等传统指标来衡量,英伟达的股价已经透支了未来很多年的增长预期。市场对它的定价,已经不是基于它现在赚了多少钱,而是基于它未来能赚多少钱,这个未来,被描绘得无比光明。这种预期驱动的上涨,本身就是泡沫的温床。一旦未来的增长不及预期,哪怕只是稍微放缓,股价都可能面临剧烈的回调。这就好像一辆时速300公里的跑车,动力强劲,但路面上一颗小石子,都可能引发严重的后果。更深层次的担忧,来自于对AI热潮本身的质疑。现在,全世界都在为AI疯狂投入,但一个根本性的问题还没有完全解决:这么巨大的投入,究竟能否带来相匹配的回报?除了少数几个成功的应用,大部分AI项目仍处于“烧钱”阶段。如果未来一两年,各大公司发现AI的变现能力远不如预期,开始削减相关预算,那么对算力的需求也必然会降温。到那时,英伟达这位“卖铲人”的生意,恐怕就没那么好做了。这种对单一技术浪潮的极度依赖,让英伟达的根基看起来虽然庞大,却也有些脆弱。这让人不禁想起了2000年的互联网泡沫。当时,无数带着“.com”的公司股价一飞冲天,人们相信互联网将改变一切。事后来看,互联网确实改变了一切,但当时绝大多数公司都成了炮灰。那么,英伟达会是那个活下来的亚马逊、谷歌,还是那个被时代遗忘的Pets.com呢?一个关键的区别在于,英伟达拥有真实且巨额的利润,这是当年那些泡沫公司所不具备的。它不是在画饼充饥,而是在真实地享受着技术革命带来的红利。但反过来看,当年的思科,也是靠卖路由器赚得盆满钵满,同样拥有强大的护城河,不也在泡沫破裂后股价跌去了九成以上,十几年都没能重回巅峰吗?历史的镜子,总是能照出当下的影子。所以,英伟达的市值究竟是实是虚,这个问题可能没有一个简单的非黑即白的答案。它更像一个复杂的函数,变量包含了技术的迭代速度、商业模式的变现能力、竞争对手的追赶步伐,甚至全球地缘政治的走向。它既反映了人工智能革命带来的巨大机遇,也浓缩了资本市场在狂热情绪下的非理性预期。它是一家伟大的公司,这一点毋庸置疑,但它的股价,承载的或许已经不仅仅是公司本身的价值,更是整个世界对未来的所有想象和赌注。那么,你认为,我们是处在一个伟大时代的开端,还是又一次站在了历史性泡沫的顶点呢?
有个疑问:为什么中国不拆开英伟达显卡研究,从而造出自己的国产显卡? 很多人觉

有个疑问:为什么中国不拆开英伟达显卡研究,从而造出自己的国产显卡? 很多人觉

为什么中国不拆开英伟达显卡研究,从而造出自己的国产显卡?就这么说吧,即使完整拆开

为什么中国不拆开英伟达显卡研究,从而造出自己的国产显卡?就这么说吧,即使完整拆开

极简比较沐曦、摩尔线程和寒武纪:一、创始人背景1-沐曦:创始人陈维良曾任职

极简比较沐曦、摩尔线程和寒武纪:一、创始人背景1-沐曦:创始人陈维良曾任职

刚看到一个观点:为什么没人用MacStudio做AI?PyTorch核

刚看到一个观点:为什么没人用MacStudio做AI?PyTorch核