谷歌TPU v8深度解读：不交“英伟达税”的底气从何而来

当前，每家前沿AI实验室都在配给两样东西：电力和算力。大多数实验室从同一家供应商那里购买模型训练所需的计算资源，承受着让英伟达成为全球最有价值公司之一的高额毛利率。但谷歌不这样做。

一颗芯片不够用：2024年的双芯片决策

在拉斯维加斯F1广场的一场私人聚会上，谷歌预览了其第八代张量处理单元。核心卖点：两款定制硅片设计将在今年晚些时候出货，每款专门针对现代AI工作负载的不同一半——TPU 8t面向前沿模型训练，TPU 8i面向低延迟、高内存需求的代理推理和实时采样。

谷歌AI和基础设施高级副总裁Amin Vahdat在台上强调了一个对IT领导者比任何个别规格都更重要的观点：谷歌端到端设计其AI技术栈的每一层，这种垂直整合正开始体现在每token成本的经济性上——谷歌声称其竞争对手无法匹敌。

Vahdat透露，分拆路线图的决定是在2024年做出的——比整个行业转向推理模型、代理和强化学习作为主导前沿工作负载早了一年。“我们在两年前就意识到，一年一颗芯片是不够的，”Vahdat说。“这是我们第一次真正推出两颗超高性能的专用芯片。”

TPU 8t：可扩展到百万芯片的训练网络

TPU 8t是一个强势的代际跃升：相比2025年出货的第七代TPU Ironwood，8t每pod提供2.8倍的FP4 EFlops（121 vs 42.5），双向扩展带宽翻倍至每芯片19.2 Tb/s，扩展网络四倍增至每芯片400 Gb/s。

对IT领导者最重要的数字：8t集群（Superpod）可以通过谷歌称为Virgo网络的新互连，在单个训练任务中扩展到超过100万颗TPU芯片。8t还引入了TPU Direct Storage，将数据从谷歌的托管存储层直接移入HBM，无需通常的CPU中介跳转，减少了完成每个epoch所需的pod小时数。

TPU 8i：为代理重新设计的网络

如果说8t是进化的一步，TPU 8i在架构上更为有趣。根据谷歌的数据，8i每pod提供9.8倍的FP8 EFlops（11.6 vs 1.2）、6.8倍的HBM容量（331.8 TB vs 49.2），pod规模从256颗增长4.5倍至1,152颗芯片。

驱动这些数字的是对网络本身的重新思考。谷歌与DeepMind合作构建了名为Boardfly的拓扑结构，专门用于减少网络直径——缩小pod中任意两颗芯片之间的跳数。配合集合加速引擎和谷歌描述为非常大的片上SRAM，8i在实时LLM采样和强化学习方面实现了5倍延迟改进。

垂直整合护城河

Vahdat展示的核心论点是谷歌称为AI技术栈的六层图：能源为基础，然后是数据中心土地和围护结构、AI基础设施硬件、AI基础设施软件、模型（Gemini 3）以及顶层服务。Vahdat指出，孤立地设计每一层会迫使每层退化到最小公分母，而谷歌是将它们一起设计的。

这就是IT买家和分析师面前的竞争故事变得清晰的地方。OpenAI、Anthropic、xAI和Meta都严重依赖英伟达硅片来训练其前沿模型。他们购买的每颗H200和Blackwell GPU都带有英伟达的数据中心毛利率——业内分析师两年来持续标记为结构性成本劣势的“英伟达税”。谷歌支付的是晶圆代工、封装和工程成本，不支付那部分利润率。

对于2026-2027年的云评估，V8重新定义了采购考量：训练大型专有模型的团队应关注8t可用性窗口、Virgo网络访问和吞吐量SLA；服务代理或推理工作负载的团队应评估8i在Vertex AI上的可用性。前沿算力竞赛曾经是谁能买到最多H100的问题，现在是谁控制整个技术栈的问题。目前真正做到这一点的公司名单上，只有两个名字：谷歌和英伟达。

谷歌TPU v8深度解读：不交“英伟达税”的底气从何而来

一颗芯片不够用：2024年的双芯片决策

TPU 8t：可扩展到百万芯片的训练网络

TPU 8i：为代理重新设计的网络

垂直整合护城河

发表回复取消回复

最新文章

文章分类

谷歌TPU v8深度解读：不交“英伟达税”的底气从何而来

一颗芯片不够用：2024年的双芯片决策

TPU 8t：可扩展到百万芯片的训练网络

TPU 8i：为代理重新设计的网络

垂直整合护城河

发表回复 取消回复

最新文章

文章分类

发表回复取消回复