多年今后 ,2025年圣诞节这一天,会载入环球AI算力芯片产业发展史。12月25日凌晨,英伟达和Groq宣布告竣“非排他性授权协议”,以200亿美元(约合1400亿元)现金价格购置 一家“非GPU”架构企业的技术授权。这场生意业
|
多年今后 ,2025年圣诞节这一天,会载入环球AI算力芯片产业发展史。 12月25日凌晨,英伟达和Groq宣布告竣“非排他性授权协议”,以200亿美元(约合1400亿元)现金价格购置 一家“非GPU”架构企业的技术授权。 这场生意业务是英伟达有史以来范围 最年夜 的一笔“投资”,该公司将现金和短期持有资本606亿美元的三分之一都给了这家公司,超出该公司此前估值的3倍,可见其必须拿下该项技术的决心。 这一激进动作背后,与近期谷歌TPU等“非GPU架构”的风头正劲亲密 相干。英伟达收购的这家芯片公司Groq的首创人兼CEO,恰是 谷歌“TPU芯片”创造者——乔纳森·罗斯(Jonathan Ross),收购后乔纳森及Groq的焦点技术成员也将集体加盟英伟达。 值得注意的是,Groq主攻的也并非谷歌TPU同款架构,而是独创的LPU——软件界说硬件的可重构数据流架构,清除 了内存带宽的瓶颈。这种计划让LPU在处置处罚年夜 说话 模子时,能实现每秒数百个Token的“瞬时”吐字,这是TPU和传统GPU无法企及的物理极限。这一技术也被业界及媒体誉为“高阶TPU”。乃至一些业内子 士表现,对于推理环节而言,Groq的可重构数据流也许 是最好的技术路径选择,没有之一。 英伟达CEO黄仁勋(Jensen Huang)年初曾表现,他以为AI推理需求将增加 百倍。而英伟达在岁末这个时点“强势收编”推理优化的低耽误芯片制造 商Groq,或许已经承认了GPU并非AI推理工作的抱负选择,更对外印证了非GPU架构在 AI 算力时代的重要性正日益凸显。 让模子机能 暴涨40倍,新架构超越 GPU 究竟上,AI 年夜 模子热潮 引发 了算力需求暴涨。从文本生成、AI 图像创作到 AI 视频合成,从年夜 范围 模子训练到高复杂度推理使命,年夜 模子显现出令人赞叹的能力,这也让AI算力芯片在其中施展 症结 感化 。 跟着 AI应用途 景丰硕 、使命日趋复杂,AI 芯片赛道早已离别 零散玩家试水的阶段,形成了两年夜 泾渭分明的技术流派:一派是以 GPU 为代表的共享式会合计算 派(简称 GPU 派);另一派则是以ASIC(谷歌 TPU)、可重构数据流芯片(Groq LPU)为代表的非GPU派。 在这个风云际会的AI芯片江湖中,两年夜 技术流派如同武林界的泰山北斗——少林与武当。 其中,谈到GPU派,门派宗师为芯片巨头英伟达。GPU架构就像精密的工业流水线,计算 单位如同训练有素的工人,严酷遵照CPU主管的指令,在冯·诺依曼架构的框架下高效运转。其最年夜 优势在于数十年精心构筑的成熟软硬件生态,标准化程度高,用户几乎可以即插即用。然而,GPU架构芯片的机能 提升越来越依靠于制程微缩的极限冲破 以及HBM带宽的艰难提升,如同攀缘加倍 陡峭山岳 。 再来看非GPU派,包罗ASIC(专用集成电路)和可重构数据流芯片,其中Groq LPU为可重构数据流领域 的“自得弟子”,其精髓在于硬件可以或许根据瞬息万变计算 使命动态重组,构建出高效专用通道,使得AI芯片具备灵活 性和专用集成电路高效性的优势。 早在2015年,可重构计算 就被国际半导体技术路线图(ITRS)预见 为“将来最具远景的芯片架构”,被学术界和产业界视为继CPU、FPGA和GPU之外的第四类通用计算 芯片。 现在英伟达得到的Groq,并非基于GPU举行“小修小补”,而是直接融会 已经被验证的强年夜 的可重构数据流架构,从底层构建推理系统,旨在实现AI推理速度、范围 、可靠 性和资本效益。 其中,被称为“高阶TPU”的Groq LPU采用软件界说硬件的数据流式并行架构,基于格罗方德(Global Foundries)的14nm工艺制造 ,芯片面积约为725平方毫米,不包含 外部HBM存储,在处置处罚过程中,权重、键值缓存 (KVCache) 和激活值等数据都保存在芯片内部,依靠于动态调度模式,可以让数百个焦点同步激活张量模子,即可实现40倍于传统计划 的推理机能 ,无需依靠先辈制程即可冲破 能效瓶颈。 2025年7月,Moonshot AI(月之暗面)对外发布开源文本年夜 模子Kimi K2,一度在国际权势巨子榜单LMArena上登顶环球最强开源模子,紧追闭源顶尖模子。而发布后短短72小时,Groq基于高阶TPU架构的AI云算力系统,将Kimi K2的机能 提升40倍,能效比超过英伟达GPU。 在互联范围 层面,得益于Groq Compiler和Groq RealScale芯片间互连技术,Groq芯片构建了一个共享的资本 架构集群,可以或许在MoE(混淆专家)万亿参数模子上高效运行,提供所需的范围 和速度,以跟上不断变革的 AI 模子格局 ,而非出现 输出速度瓶颈。而且,Groq针对近乎线性的扩年夜 性举行了优化,比拟 于传统的GPU,14nm的Groq算力芯片可以从底层架构计划来应对 AI 工作负载扩年夜 的挑衅,能效比英伟达GPU最高可提升10倍。 可靠 性层面,根据开放式年夜 模子评估框架OpenBench数据显示,Groq与基于英伟达GPU 的 API 提供商上Together AI 运行Kimi-K2-Instruct 模子的MMLU实例,效果表明 ,Groq的准确率更高,在STEM、Social Sciences等方面都比肩GPU AI Infra能力。 更为症结 的是,制造 资本层面,用于制造 Groq芯片的晶圆资本也许 低于每片6000美元,比拟 之下,英伟达的H100芯片采用台积电5nm工艺,其晶圆资本靠近每片16000美元。终极,Groq芯片和单卡资本均低于英伟达H100,这对于重算力推理的客户来说性价比更高。 以开源Mixtral 8x7b开源模子为例,Groq 的吞吐量最高可达其他推理办事 的 4 倍,Tokens处置处罚速度比GPU更快,而价格却不到Mistral自己的三分之一。 总结来看,依附“高阶 TPU”的可重构数据流架构,Groq在推理速度、吞吐服从、资本优化等焦点维度形成综合优势,全面 对英伟达 GPU 构成竞争压力。 这或许也是英伟达着急 收购Groq资产的焦点缘故原由。 预测下一步,跟着 这桩200亿美元“非典范并购”生意业务落锤,乔纳森和其他高管将共同助力英伟达构建AI工场 。 英伟达方面表现,Groq的低耽误芯片对输入的相应速度极快,将为英伟达的产品带来新的能力,帮助其开拓新的市场领域 。“我们计划将Groq的低耽误处置处罚器整合到英伟达的AI工场 架构中,以办事 更普遍 的AI推理和及时工作负载......固然我们正在吸纳Groq的良好人才并得到其常识 产权许可,但我们并没有收购Groq公司。”英伟达CEO黄仁勋强调。 黄仁勋曾称,将来AI软件将全面 具备推理能力,这将转变 AI系统处置处罚方法 ,“我们具备年夜 幅降低 AI 资本的能力,而这一价值已成为行业共鸣 。一旦实现资本的明显优化,我们便能在推理领域 开展更深度的探索与立异 。” 非GPU时代已来
据报道,英伟达的年夜 客户Meta正思量在其数据中央年夜 范围 采用谷歌自研的AI芯片——张量处置处罚单位(TPU),并也许 最早于明年开端 租用。这一消息 如同一颗重磅炸弹,刹时引爆市场。在11月25日生意业务中,英伟达股价一度暴跌6%,市值蒸发数千亿美元。 现实上,跟着 AI年夜 模子的重心从训练走向推理和Agentic AI,英伟达GPU的缺陷日益凸起 。 首先,GPU并非为推理优化,它的计划初衷是高速并行计算 ,而不是以最低资本执行反复 推理指令。 其次,GPU的灵活 性意味着其硬件资本 在现实推理场景中也许 并非最优配置,导致单位能耗的服从不如ASIC。 末了,英伟达的定价权极高,云厂商往往需要以远高于制造 资本的价格购入GPU,形成了强势把持计划 。 是以 ,在上述诸多背景下,谷歌、Meta、Cerebras Systems等公司都在发力非GPU技术。而英伟达末了选择年夜 范围 收购Groq公司,以制止“高阶TPU”架构的向导者Groq,将与英伟达GPU共同“混战”的局势 。 早在2025年,谷歌推出第七代TPU Ironwood,不仅是TPU汗青上第一款最强推理芯片,而且在架构、范围 、可靠 性、网络与软件系统上等AI基础设施技术层面都举行了重构,在多项症结 指标上首次与英伟达Blackwell系列实现正面交锋。 单芯片层面,Ironwood的FP8稠密算力达到4.6 petaFLOPS,略高于Nvidia B200的4.5 petaFLOPS,已跻身环球旗舰加速器第一梯队。更重要的是,一个Ironwood Pod可集成9216颗芯片,构成一个超节点,FP8峰值机能 超过42.5 exaFLOPS,在特定FP8负载下,该Pod机能 相当于最靠近竞品系统的118倍。 这不仅是单芯片差距,而且面对英伟达,谷歌TPU在系统架构、拓扑计划、集群扩年夜 能力等层面得到碾压式胜利。 知名 投行花旗以为,英伟达短期职位安定 ,但同时预测其AI芯片市场份额将从90%逐步下滑至2028年的81%。 从投资视角来看,英伟达以 200 亿美元收购 Groq 的生意业务,不仅创下其自身史上范围 最年夜 的并购记载,更堪称 AI 算力赛道的重磅布局。这笔生意业务的 “重量级” 显而易见:200 亿美元相当于英伟达手头近三分之一的资金贮备 ,如此稀有的年夜 手笔,也让市场戏称其是 “用巨额资金买下焦点技术 IP”。 这背后,恰好印证了可重构数据流架构的巨年夜 价值 —— “高阶TPU”技术不仅是 Groq 的焦点竞争力,更是英伟达不惜重金补齐非 GPU 赛道短板、巩固算力领域 主导职位的症结 所在。 据报道,另一家可重构芯片计划公司SambaNova也迎来与Groq一样的收购局势 。据报道,英特尔正在就收购美国AI芯片独角兽SambaNova举行开端会商,SambaNova公司估值达到50亿美元。 预测将来,非GPU赛道远景广阔。 据国际数据公司(IDC)的最新数据显示,估量 2025年,AI算力芯片市场范围 超过1285亿美元,同比增加 47.1%,估量 2030年AI芯片市场范围 达4138亿美元,其中,非GPU架构芯片市场范围 占比超过21%,而推理芯片占比提升至65%。
2026,GPU,ASIC,可重构数据流,谁将撑起环球AI算力产业的半壁山河还是三分天下,我们拭目以待。 *免责声明:本文由作者原创。文章内容系作者小我 观点,半导体行业视察 转载仅为了传达一种不同的观点,不代表半导体行业视察 对该观点附和或支撑 ,假如有任何异议 ,接待联系半导体行业视察 。 |
2025-05-03
2025-03-05
2025-02-26
2025-03-05
2025-02-26