当前,每家前沿AI实验室都在配给两样东西:电力和算力。大多数实验室从同一家供应商那里购买模型训练所需的计算资源,承受着让英伟达成为全球最有价值公司之一的高额毛利率。但谷歌不这样做。

一颗芯片不够用:2024年的双芯片决策

在拉斯维加斯F1广场的一场私人聚会上,谷歌预览了其第八代张量处理单元。核心卖点:两款定制硅片设计将在今年晚些时候出货,每款专门针对现代AI工作负载的不同一半——TPU 8t面向前沿模型训练,TPU 8i面向低延迟、高内存需求的代理推理和实时采样。

谷歌AI和基础设施高级副总裁Amin Vahdat在台上强调了一个对IT领导者比任何个别规格都更重要的观点:谷歌端到端设计其AI技术栈的每一层,这种垂直整合正开始体现在每token成本的经济性上——谷歌声称其竞争对手无法匹敌。

Vahdat透露,分拆路线图的决定是在2024年做出的——比整个行业转向推理模型、代理和强化学习作为主导前沿工作负载早了一年。“我们在两年前就意识到,一年一颗芯片是不够的,”Vahdat说。“这是我们第一次真正推出两颗超高性能的专用芯片。”

TPU 8t:可扩展到百万芯片的训练网络

TPU 8t是一个强势的代际跃升:相比2025年出货的第七代TPU Ironwood,8t每pod提供2.8倍的FP4 EFlops(121 vs 42.5),双向扩展带宽翻倍至每芯片19.2 Tb/s,扩展网络四倍增至每芯片400 Gb/s。

对IT领导者最重要的数字:8t集群(Superpod)可以通过谷歌称为Virgo网络的新互连,在单个训练任务中扩展到超过100万颗TPU芯片。8t还引入了TPU Direct Storage,将数据从谷歌的托管存储层直接移入HBM,无需通常的CPU中介跳转,减少了完成每个epoch所需的pod小时数。

TPU 8i:为代理重新设计的网络

如果说8t是进化的一步,TPU 8i在架构上更为有趣。根据谷歌的数据,8i每pod提供9.8倍的FP8 EFlops(11.6 vs 1.2)、6.8倍的HBM容量(331.8 TB vs 49.2),pod规模从256颗增长4.5倍至1,152颗芯片。

驱动这些数字的是对网络本身的重新思考。谷歌与DeepMind合作构建了名为Boardfly的拓扑结构,专门用于减少网络直径——缩小pod中任意两颗芯片之间的跳数。配合集合加速引擎和谷歌描述为非常大的片上SRAM,8i在实时LLM采样和强化学习方面实现了5倍延迟改进。

垂直整合护城河

Vahdat展示的核心论点是谷歌称为AI技术栈的六层图:能源为基础,然后是数据中心土地和围护结构、AI基础设施硬件、AI基础设施软件、模型(Gemini 3)以及顶层服务。Vahdat指出,孤立地设计每一层会迫使每层退化到最小公分母,而谷歌是将它们一起设计的。

这就是IT买家和分析师面前的竞争故事变得清晰的地方。OpenAI、Anthropic、xAI和Meta都严重依赖英伟达硅片来训练其前沿模型。他们购买的每颗H200和Blackwell GPU都带有英伟达的数据中心毛利率——业内分析师两年来持续标记为结构性成本劣势的“英伟达税”。谷歌支付的是晶圆代工、封装和工程成本,不支付那部分利润率。

对于2026-2027年的云评估,V8重新定义了采购考量:训练大型专有模型的团队应关注8t可用性窗口、Virgo网络访问和吞吐量SLA;服务代理或推理工作负载的团队应评估8i在Vertex AI上的可用性。前沿算力竞赛曾经是谁能买到最多H100的问题,现在是谁控制整个技术栈的问题。目前真正做到这一点的公司名单上,只有两个名字:谷歌和英伟达。