每个前沿AI实验室眼下都在两样东西上精打细算:电力和算力。大多数实验室从同一个供应商那里购买模型训练所需的计算资源,承受着让英伟达成为全球最有价值公司之一的高昂毛利率。谷歌是个例外。

在拉斯维加斯F1 Plaza的一场私人活动上,谷歌预览了其第八代张量处理单元(TPU)。核心信息是:两款定制芯片设计将于今年晚些时候出货,各自专为现代AI工作负载的不同半边而生。TPU 8t面向前沿模型训练,TPU 8i面向低延迟、高内存需求的代理推理和实时采样世界。

为什么一颗芯片不够:2024年的双芯片赌注

谷歌AI和基础设施高级副总裁兼首席技术专家Amin Vahdat透露,分叉路线图的决定是在2024年做出的——比整个行业转向推理模型、代理和强化学习作为主流前沿工作负载早了一年。“我们在两年前就意识到,一年一颗芯片不够,”Vahdat说。“这是我们第一次真正推出两颗超高性能的专用芯片。”

对企业买家来说,含义很具体:在Google Cloud上运行微调或大规模训练的客户,以及在Vertex AI上服务生产代理的客户,一直在租用相同的加速器并承受效率低下。V8是第一个硅片层面将这些问题视为不同问题的世代。

TPU 8t:训练芯片的规模化飞跃

TPU 8t是一个积极的代际跃升。根据谷歌数据,8t在每Pod的FP4 EFlops上比2025年出货的第七代TPU Ironwood提升2.8倍(121对42.5),双向扩展带宽翻倍至每芯片19.2 Tb/s,扩展网络四倍提升至每芯片400 Gb/s。Pod规模从9216微增至9600芯片,由谷歌的3D Torus拓扑连接。

对IT领导者最重要的数字:8t集群(Superpods)通过谷歌称为Virgo网络的新互联技术,可以在单个训练任务中扩展超过100万颗TPU芯片。8t还引入了TPU Direct Storage,将数据从谷歌托管存储层直接移入HBM,跳过了通常的CPU中介环节,对于长时间训练任务可显著减少每个epoch所需的Pod小时数。

TPU 8i:为AI代理重新设计网络

如果说8t是进化式升级,TPU 8i在架构上更具革命性。8i的规格跳跃堪称惊人:每Pod的FP8 EFlops提升9.8倍,HBM容量提升6.8倍,Pod规模从256增长4.5倍至1152芯片。

驱动这些数字的是对网络本身的重新思考。谷歌默认的芯片连接方式支持的是带宽优先而非延迟优先——对大数据吞吐量有利,但不适合代理所需的最低响应时间。谷歌与DeepMind合作构建了Boardfly拓扑,专门用于减少Pod内任意两颗芯片之间的网络跳数。配合聚合加速引擎和超大芯片上SRAM,8i声称在实时LLM采样和强化学习延迟方面提升5倍。

垂直整合护城河

Vahdat展示了谷歌称为AI技术栈的六层图:能源、数据中心、AI基础设施硬件、AI基础设施软件、模型(Gemini 3)和顶层服务。谷歌从头到尾设计每一层。OpenAI、Anthropic和Meta都严重依赖英伟达芯片训练前沿模型——每颗GPU都带着英伟达的数据中心毛利率,即行业分析师标记了两年的“英伟达税”。谷歌的TPU则只承担制造、封装和工程成本,不支付那层溢价。

前沿计算竞赛曾经是谁能买到最多H100的问题,现在变成了谁控制整个技术栈。目前真正做到这一点的公司只有两家:谷歌和英伟达。