这颗不被看好的芯片,终于翻身?

摘要

这两天,谷歌TPU彻底火了。据国外媒体报道,Meta正考虑从2027年起在其数据中心摆设谷歌的TPU(张量处理惩罚单元),潜伏条约金额达数十亿美元。新闻 一出,谷歌股价盘前暴涨超4%,而英伟达股价则一度下跌超4%。这不是


这两天,谷歌TPU彻底火了。


据国外媒体报道,Meta正考虑从2027年起在其数据中心摆设谷歌的TPU(张量处理惩罚单元),潜伏条约金额达数十亿美元。新闻 一出,谷歌股价盘前暴涨超4%,而英伟达股价则一度下跌超4%。


这不是TPU第一次震动 业界。就在此前不久,谷歌发布的Gemini 3年夜 模子全程使用TPU练习,横扫各年夜 基准测试榜单,月活用户突破6.5亿。AI始创 企业Anthropic更是公布将摆设多达100万个谷歌TPU芯片,生意业务 价值 数百亿美元。


谷歌今年正式发布第七代TPU芯片Ironwood,单芯片峰值算力到达4614 TFLOPS,在练习和推理方面的机能 比上一代提拔了4倍多,被称为“迄今为止机能 最强、能效最高的定制芯片”。最高配集群可毗连9216个液冷芯片,峰值算力可达42.5 ExaFLOPS,是世界 上最年夜 超等盘算机的24倍以上。


从“不被看好的救命项目”到现在年夜 概撼动英伟达霸权的战略级武器,TPU用十年时光 完成了惊人的演化 。




被迫自研




时光 回到2013年,谷歌内部发作了一场算力危急。


其时,谷歌的研究人员 做出了一个惊人的预测:假如全球仅1亿安卓用户每天使用语音搜索并经由进程 神经网络举行3分钟的语音辨认,所消耗的算力就将是谷歌全体 数据中心总算力的两倍。而其时全球安卓用户远不止1亿。假如仅经由进程 扩年夜 数据中心规模 来满足需求,不仅耗时,本钱更是高得惊人。


其时市情 上有三个选择:继续使用CPU、购置 英伟达GPU,年夜 概自研ASIC芯片。


虽然英伟达GPU已经异常 成熟,可以立即购置 ,但谷歌颠末评估后创造 ,依靠GPU存在两个致命题目:一是GPU并非完全专门用于深度学习盘算,在谷歌的规模 下,服从损失 落 意味着巨年夜 的本钱糟蹋 ;二是将对谷歌战略至关重要的硬件完全依靠单一供应 商,风险太年夜 。


其时谷歌团队研究了市情 上全体 算力解决方案,终极全体 被高层否决。开发公司内部的深度学习专用处理惩罚器芯片,成为谷歌的不二之选。


但题目在于,开发ASIC芯片平日 需要数年时光 和昂扬 本钱,在AI快速发展的时代,谷歌等不起。这个项目的目的异常 明白:必需 快速向数据中心交付硬件,而且要年夜 规模 交付。目的是开发一个与GPU比拟 ,在推理上产生10倍本钱机能 上风的ASIC。


谷歌迅速行动起来,挖来了惠普智能底子办法实验室高等 总监Norm Jouppi、Arm架构开发商Calxeda的SoC工程总监Richard Ho等一批芯片行业资深人才,还与另一位巨头 ——博通达成 了互助。


平日 一个芯片的开发需要几年时光 ,但谷歌只用了15个月就完成了从立项到年夜 规模 摆设。


TPU项目负责人Norm Jouppi回想道:“芯片设计进程 异常迅速,这自己就是一项不凡 的成绩。更出乎料想的是,首批交付的硅片无需举行任何毛病 修改 以及掩膜的更改,而正在同步举行的还有团队组建,RTL设计专家、验证专家都急需增补,全部 工作节拍 异常 紧张。”


2015年,第一代TPU悄然出生 。它采用28nm制程工艺,专为推理设计,虽然参数在本日看来并不出众,但在其时却带来了15-30倍的机能 提拔和30-80倍的能效提拔。



TPU的焦点创新在于采用了“脉动阵列”(Systolic Array)架构。这是一个由65536个乘法单元构成的256×256网格,数据像血液一样有节拍 地流过处理惩罚单元,每个单元只做乘法和累加,然后将结果通报给下一个。这种设计使数据在阵列内部被高度复用,最年夜 限度淘汰了对高延迟、高功耗主内存的访问。


更关键的是,TPU采用了“提前编译"”战略。编译器在程序运行前就完备规划好了全体 数据路径,这种必定 性使其无需复杂的缓存机制,从而年夜 幅低落了能耗。


但最初,业界对TPU并不看好。


当谷歌发布TPU架构细节和机能 指标时,立刻引发 了激烈争议。英伟达加速盘算副总裁Ian Buck绝不虚心 地回应:“Kepler是2009年设计的,用于解决传统高机能 盘算题目。当Kepler设计时,GPU深度学习研究乃至还没开始。”他夸年夜 ,英伟达在Maxwell和Pascal两代GPU上已专门针对呆板学习做了年夜 量 优化。


英伟达随即公布 了自己的基准测试结果。在GoogLeNet推理工作负载上,请求 99%的生意业务 响应 时光 低于10毫秒的前提下,TPU能处理惩罚28万次推理/秒,而Pascal P40能处理惩罚56万次/秒——整整两倍于TPU。即使是更小的Tesla P4,机能 也与TPU根本持平。


更致命的质疑来自本钱层面。Buck开门见山地表现:“GPU单元机能 的本钱应该远低于TPU。"他指出,P4加速卡售价约2100美元,P40约4700美元。假如谷歌开发和制造TPU的总本钱无法在性价比上超越这些GPU,那么自研芯片在经济上就毫无意义。


英伟达还预测,未来的Volta架构GPU将把呆板学习推理机能 再翻一番。届时,进级 了GDDR5内存的TPU也只能勉强追平Volta的机能 。“对于市场上其他公司来说,为AI开发定制ASIC是一项极其昂贵且具有挑衅性的使命。”Buck的言外之意很明白:在GPU年年迭代的节拍 下,定制芯片的风险太高。


业界普遍 都在质疑:谷歌为什么要冒险自研?假如GPU能满足需求,为什么还要负担巨额研发本钱和供应 链风险?


这个题目的答案,要比及几年后才逐渐清楚。谷歌最看重的不是单卡峰值机能 ,而是在其特定工作负载下的总拥有本钱(TCO)。TPU虽然在通用基准测试中不愿定占优,但在谷歌的实际运用 场景中,可以年夜 概以更低的功耗实现足够的机能 ,并且完全按照 谷歌的需求定制。


更重要的是,自研芯片让谷歌掌握了战略自动权。它不必担忧 供应 商涨价,不必受制于GPU的产物蹊径图,可以根据自身需求随时调解芯片设计。


实际很快就打了包括英伟达在内的全体 人的脸——TPU终极生产了凌驾10万颗,在告白 、搜索、语音、AlphaGo乃至自动驾驶等领域被普遍 采用。


2016年,在举世瞩目的AlphaGo对战李世石的角逐中,TPU正式表态。其时AlphaGo仅摆设了48个TPU,就战胜了之前内置1202个CPU和176个GPU的版本,这一战让TPU彻底出圈。




迭代突破:从 v1 到 v7 的十年征程




TPU v2(2017):从推理到练习的跨越

第一代TPU在加速推理方面惊艳业界,但它无法加入练习,这成为深度学习继续扩展的最年夜 瓶颈。谷歌经由进程 内部年夜 规模 练习使命创造 :推理是“跑刷新视频”,练习才是“拍影戏自己”,二者的盘算差距不止一星半点。在这样的背景下,TPU v2 的目的不再是做一颗快芯片,而是负担起支撑未来数十亿参数模子的练习使命,底子定位产生 彻底变革。


TPU v2最重要的创新,是谷歌亲手定义了深度学习时代的焦点数值格式 ——bfloat16。它保存FP32的动态规模 ,同时把精度砍半,既保证 模子练习安定 性,又让吞吐和能效年夜 幅提拔。与此同时,谷歌将片上高带宽内存扩充至16GB,并将带宽提拔到600GB/s,为练习阶段的巨量数据活动供给 高速通道。加倍 年夜 胆 的是全新的“2D环形互连”(ICI),首次将 256 颗 TPU 以低延迟网络串成一个练习阵列。


当年发布的 TPU v2 Pod,峰值算力到达 11.5 PetaFLOPS,标志着谷歌真正迈向“AI超等盘算底子办法供给 者”的门路。v2 奠基了此后 TPU 系列作为“练习集群焦点”的脚色,也开始推动行业从单卡竞争转向“集群规模 +互连架构”的新赛道。它不仅是 TPU 的一次进级 ,更是谷歌 AI 底子架构战略的第一次年夜 标的目的 转折。


TPU v3(2018):液冷时代的开启

仅仅一年后,TPU v3 将整体机能 再次翻倍,单个 Pod 的芯片数增至 1024 颗,练习能力年夜 幅提拔。然而机能 发作也带来副感化 :单颗 TPU v3 功耗飙升至 450W,年夜 规模 集群意味着要同时处理惩罚上百千瓦的热量。传统风冷方案完全无法承载如此 密度,这成为谷歌必需 正面突破的技巧 难题。


面临散热瓶颈,谷歌作出关键决议——全面转向液冷。TPU v3 集群首次采用直接液冷方案,让冷却液贴身吸走芯片产生的热量。对于数据中心而言,这是底子办法层的结构性变革,意味着从办事 器机架、管路布设到能耗解决 ,全都要为AI盘算从新 设计。液冷的引入,也宣布 TPU 进入“超高功率密度盘算”的新纪元。


谷歌经由进程 v3 创建起在年夜 规模 练习底子办法中的工程上风,奠基了后续 TPU 超年夜 规模 集群能力的物理底子,也让液冷成为之后 AI 数据中心的主流趋势。


TPU v4(2022):光电互连的革命

当模子规模 进入数百亿乃至万亿参数时代,集群规模 成为机能 的决议 性因素。传统固定拓扑的互连网络很快遇到瓶颈——模子结构差异、练习阶段差异,对通信模式的需求也差异。TPU v4 面临的焦点挑衅,不只是提拔速度,而是让网络可以年夜 概随使命而变。


2022年的TPU v4 的最年夜 突破是引入 OCS(Optical Circuit Switch)光电路交换技巧 ,让互连从“固定拓扑”变成“动态可编程”。体系经由进程 微镜阵列在毫秒级别切换光路,可以年夜 概为差异规模 、差异练习阶段的使命创建最优毗连结构。与此同时,TPU v4采用3D环面拓扑,单集群规模 扩年夜 至 4096 颗芯片,在 7nm 工艺的加持下,整体能效比上一代更高。


OCS 技巧 的引入,直接推动行业把“可重构光网络”纳入超算与年夜 型练习集群的尺度方案,也成为谷歌后续更年夜 规模 练习体系的基石。


TPU v5p(2023):向练习与推理双强进化

跟着 Transformer 家族模子不断膨胀,练习的需求依然高涨,但推理成为新的本钱黑洞。谷歌意识到:假如 TPU 只盯着练习,将在推理市场失落 去阵地;若只盯推理,又会失落 去在年夜 型模子练习上的向导地位。因此,v5p 的使命是打造一颗“练习强、推理也强”的万能盘算焦点。


TPU v5p 将集群规模 提拔至 8960 颗芯片,并将芯片间互连带宽翻倍至 1200GB/s,同时进级 至 800G OSFP 光模块,实现更高密度、更低延迟的通信。无论是在超年夜 规模 模子练习,照旧在年夜 型在线推理办事 的吞吐表现上,v5p 都比拟 上一代实现明显跃升,成为泛AI负载加速器。


v5p 的定位变革非常关键:谷歌正式不再把 TPU 限定为练习芯片,而是把它推向更普遍 的推理市场。这是一次战略上的扩圈,使 TPU 在未来年夜 型 AI 办事 中具备更普遍 的运用 空间。v5p 为 TPU v6 和 v7 的“推理强化蹊径”打下底子,也标志着 TPU 产物线从单一场景走向通用化的转折点。


TPU v6(2024):推理时代的宣言

进入 2024 年,全球 AI 公司最年夜 的开销已经不再是练习,而是推理。跟着 数十亿用户每天挪用 年夜 模子办事 ,推理成为全行业的本钱中心。谷歌意识到:谁能把推理本钱压下来,谁就能赢得下一阶段的 AI 办事 竞争。TPU v6(Trillium)因此被定义为面向推理举行架构重做的产物。


TPU v6 的架构围绕推理从新 设计:FP8 算力吞吐明显提拔,使年夜 模子推理的性价比年夜 幅改进;片上 SRAM 容量翻倍,淘汰访问 HBM 的能耗和延迟;整体能效比上一代提拔 67%,在划一功耗下获得明显更高的吞吐。这些设计都直指推理使命的痛点——带宽、延迟、能效。


Trillium 的推出,是谷歌向行业宣布 :TPU 的主战场不再规模 于练习,而是尽力袭击 推理。凭借能效上风,v6 成为谷歌内部搜索、告白 、YouTube 保举以及 Gemini 系列模子推理的主力引擎,在规模 化摆设中具备极高本钱上风。TPU 自此彻底进入“推理优先”的时代,为 v7 Ironwood 的到来铺平门路。


TPU v7 Ironwood(2025):正面比武英伟达

假如说已往的 TPU 重要在自家生态中使用,那么 TPU v7 Ironwood 的定位完全差异:这是谷歌第一次在推理芯片机能 上正面向英伟达开火。其单芯片 FP8 峰值算力到达 4614 TFLOPS,略高于英伟达 B200 的 4500 TFLOPS,标志着 TPU 在推理机能 上首次反压 NVIDIA。



Ironwood 配备 192GB HBM3e,带宽高达 7.2TB/s,使其能更轻松承载数百亿到上千亿参数的推理使命。最高支撑 9216 颗液冷芯片组成集群,峰值算力可达 42.5 ExaFLOPS,是当前业内最年夜 的专用推理集群之一。在延迟、吞吐、能效方面都到达行业顶尖水准。


Ironwood 标志着 TPU 汗青上的新阶段——谷歌第一次把 TPU 产物推向开放竞争场,并将其作为与英伟达抗衡的自动武器。象征 TPU 从追赶时代迈入袭击 时代,也标志着谷歌在 AI 底子办法竞争中不再只依靠规模 ,而是开始以机能 和产物力正面临垒。




英伟达GPU霸权,面临摆荡




已往十年,TPU重要办事 于谷歌内部,但现在谷歌已开始积极推动TPU的贸易化。


2024年炎天,谷歌开始与重要出租英伟达芯片的小型云办事 供给 商接洽,探讨在其数据中心托管TPU的年夜 概性。现在已与伦敦Fluidstack达成 协议,将在纽约数据中心摆设TPU。若Fluidstack无法付出即将到期的纽约数据中心租赁费用,谷歌将供给 高达32亿美元的兜底保证 ——这伎俩险些复刻英伟达当初扶持CoreWeave的战略。


谷歌还开始向Meta、年夜 型金融机构等推介在其自有数据中心摆设TPU的方案。知情人士透露,谷歌云部门部门高管预测,这类业务 年夜 概为谷歌带来数十亿美元的年收入,资助谷歌拿下英伟达10%的年营收盘子。


为推动TPU当地摆设,谷歌还专门开发了“谷歌版CUDA”——TPU command center,简化客户的TPU使用流程。虽然谷歌为TPU打造的编程说话 Jax普及度远不及CUDA,但谷歌向客户承诺,可借助PyTorch生态对象 与TPU command center交互,无需精通Jax。


野村证券指出,估量 到2026年,ASIC总出货量很年夜 概会第一次凌驾GPU。而TPU正是现在最成熟的ASIC。2025年,谷歌TPU的全年出货量估量 为250万片,到2026年将凌驾300万片。


跟着 TPU的突起 ,英伟达感触沾染 到了前所未有的压力。


2025年11月26日凌晨,在谷歌TPU Ironwood正式上市和Meta考虑采购TPU的新闻 传出后,英伟达稀有发布紧急声明回应:“我们对谷歌的成功觉得 高兴——他们在人工智能领域取得了重年夜 进展,而我们仍将继续向谷歌供货。英伟达领先行业整整一代,是唯一可以年夜 概运行全体 AI模子,并可在全体 盘算场景中摆设的平台。”


这条声明观赏 量破150万,批评超750个,成为AI圈爆火内容。当天英伟达股价下跌2.59%,而自10月底以来,英伟达市值已缩水超5万亿国民 币。


但竞争远未结束。谷歌自己也认可,TPU和英伟达GPU的需求都在加速增加 ,公司会继续同时支撑 两种芯片。事实上,即使谷歌成功开发了TPU,仍在年夜 量 采购英伟达GPU。2024年,谷歌订购了约16.9万台Hopper架构GPU,同时内部已摆设约150万颗TPU。


业内更多概念 以为,未来更年夜 概出现ASIC和GPU异构摆设,而不是哪一种架构一统世界 。TPU的上风在于针对特定使命的极致优化和能效比,而GPU的上风在于通用性、机动性和完备的生态体系。





TPU团队的快速流失落




TPU的成功吸引了全部 行业的眼光,也引发 了激烈的人才争取战。


2015年,风险投资家Chamath Palihapitiya在谷歌财报会上无意间了解 到谷歌正在自研AI芯片。他敏锐地意识到这是一次芯片创新的机会,开始对谷歌TPU团队工程师举行人才mapping。


2016岁尾 ,在谷歌TPU焦点团队的十人中,有八人悄悄离职,由前谷歌高等 工程师Jonathan Ross带队,在加州山景城开办了Groq公司。这批人带走了TPU最焦点的技巧 理念和设计经验。


Groq推出的LPU(说话 处理惩罚单元)芯片,推理速度到达英伟达GPU的10倍,本钱只有其1/10。虽然在总体拥有本钱上仍有争议,但其展现的技巧 蹊径为行业带来了新思路。2024年8月,Groq完成由贝莱德领投的6.4亿美元融资,估值到达28亿美元。Meta首席AI科学家Yann LeCun更是公开称赞:"Groq芯片确切 直击要害。"


OpenAI同样也在挖角谷歌。Sam Altman订定的用人法则只有一条:要么现在在谷歌,要么之前在谷歌。为了推动 激进的7万亿美元自研芯片战略,OpenAI近一年来年夜 量 挖角谷歌TPU团队。


值得注意的是,Sam Altman搭建了早年 谷歌高等 工程总监Richard Ho为首的硬件研发团队,重要成员包括Tensor SoC负责人Ravi Narayanaswami、高等 硬件工程师Thomas Norrie、技巧 司理Sara Zebian、研究科学家Phitchaya以及设计验证司理Jerry Huang等人。


2024年10月,OpenAI公布与博通及台积电达成 互助,计划于2026年生产首个定制芯片。这支由前谷歌TPU焦点成员组成的

0

路过

0

雷人

0

握手

0

鲜花

0

鸡蛋

推广
火星云矿 | 预约S19Pro,享500抵1000!
本文暂无评论,快来抢沙发!

有招是一个优质的生活妙招创作平台,在这里,你可以任意分享你的妙招经验,日常生活、技能学习、成长励志、恋爱婚姻……我们相信,每个人都有独特的生活妙招,有着无穷的创造力。
  • 官方手机版

  • 微信公众号

  • 商务合作