谷歌TPU v8发布：不交“英伟达税”的底气从何而来

每一个前沿AI实验室目前都在配给两样东西：电力和算力。大多数实验室从同一家供应商购买模型训练所需的计算资源，承受着将英伟达推向全球最具价值公司之一的高昂毛利率。但谷歌不在此列。

在拉斯维加斯F1 Plaza的一场私人活动中，谷歌预览了其第八代张量处理单元（TPU）。核心卖点是：两款定制芯片设计将于今年晚些时候出货，每款都专门针对现代AI工作负载的不同半场。TPU 8t面向前沿模型的训练，TPU 8i面向低延迟、高内存需求的代理推理和实时采样世界。

双芯片路线图：2024年的逆势押注

谷歌AI和基础设施高级副总裁Amin Vahdat透露了一个关键决策：拆分路线图的决定是在2024年做出的——比整个行业向推理模型、代理和强化学习作为主导前沿工作负载的转向早了一年。“我们在两年前就意识到，一年一颗芯片不够了，”Vahdat说。“这是我们第一次真正尝试同时推出两颗超高性能的专用芯片。”

对企业的实际影响很直接：在Google Cloud上运行微调或大规模训练的客户，与在Vertex AI上服务生产代理的客户，此前一直在租用相同的加速器并承受效率损失。v8是第一代在硅片层面将这些视为不同问题的芯片。

TPU 8t：可扩展到百万芯片的训练网络

TPU 8t是一个积极的代际飞跃。据谷歌称，8t在每个pod中提供2.8倍的FP4 EFlops（121 vs 42.5），双向扩展带宽翻倍至每芯片19.2 Tb/s，扩展网络带宽提升至每芯片400 Gb/s。Pod规模从9,216颗芯片微增至9,600颗。

对IT领导者最重要的数字：8t集群（Superpods）通过谷歌称为Virgo网络的新互连技术，可以在单个训练任务中扩展超过100万颗TPU芯片。8t还引入了TPU直连存储，将数据从谷歌的托管存储层直接移动到HBM，无需通常的CPU中转，减少了完成每个epoch所需的pod小时数。

TPU 8i：为代理重新设计网络

如果说8t是进化式升级，TPU 8i则在架构上更具创新性。8i在每个pod中提供9.8倍的FP8 EFlops、6.8倍的HBM容量，pod规模从256颗增长4.5倍至1,152颗芯片。

推动这些数字的关键是网络本身的重新思考。谷歌与DeepMind合作，构建了名为Boardfly的拓扑结构，专门用于减少网络直径——缩短pod中任意两颗芯片之间的跳数。配合集体加速引擎和超大片上SRAM，8i在实时LLM采样和强化学习方面实现了5倍的延迟改善。

垂直整合护城河

Vahdat展示的核心概念是谷歌的六层AI堆栈：能源、数据中心土地和围护结构、AI基础设施硬件、AI基础设施软件、模型（Gemini 3）和顶层服务。Vahdat指出，孤立地设计每一层会迫使你在每一层都退化到最小公分母，而谷歌是一起设计的。

这就是竞争故事的关键所在。OpenAI、Anthropic、xAI和Meta都严重依赖英伟达硅片来训练前沿模型。他们购买的每一颗H200和Blackwell GPU都带着英伟达的数据中心毛利率——业内分析师两年来一直标记的“英伟达税”。谷歌为TPU支付晶圆、封装和工程成本，但不支付这笔利润。

展望未来，Vahdat做出了两个值得注意的预测：通用CPU将在AI系统中复兴——不是作为加速器，而是作为代理沙箱、虚拟机和工具执行的编排计算；专业化也将持续强劲发展，“两颗芯片可能会变成更多”。

前沿计算竞赛曾经是谁能买到最多H100的问题。现在变成了谁控制整个堆栈的问题。真正在这方面做到的公司名单，目前只有两家：谷歌和英伟达。

谷歌TPU v8发布：不交“英伟达税”的底气从何而来

双芯片路线图：2024年的逆势押注

TPU 8t：可扩展到百万芯片的训练网络

TPU 8i：为代理重新设计网络

垂直整合护城河

发表回复取消回复

最新文章

文章分类

谷歌TPU v8发布：不交“英伟达税”的底气从何而来

双芯片路线图：2024年的逆势押注

TPU 8t：可扩展到百万芯片的训练网络

TPU 8i：为代理重新设计网络

垂直整合护城河

发表回复 取消回复

最新文章

文章分类

发表回复取消回复