每一个前沿AI实验室目前都在配给两样东西:电力和算力。大多数实验室从同一家供应商购买模型训练所需的计算资源,承受着将英伟达推向全球最具价值公司之一的高昂毛利率。但谷歌不在此列。
在拉斯维加斯F1 Plaza的一场私人活动中,谷歌预览了其第八代张量处理单元(TPU)。核心卖点是:两款定制芯片设计将于今年晚些时候出货,每款都专门针对现代AI工作负载的不同半场。TPU 8t面向前沿模型的训练,TPU 8i面向低延迟、高内存需求的代理推理和实时采样世界。
双芯片路线图:2024年的逆势押注
谷歌AI和基础设施高级副总裁Amin Vahdat透露了一个关键决策:拆分路线图的决定是在2024年做出的——比整个行业向推理模型、代理和强化学习作为主导前沿工作负载的转向早了一年。“我们在两年前就意识到,一年一颗芯片不够了,”Vahdat说。“这是我们第一次真正尝试同时推出两颗超高性能的专用芯片。”
对企业的实际影响很直接:在Google Cloud上运行微调或大规模训练的客户,与在Vertex AI上服务生产代理的客户,此前一直在租用相同的加速器并承受效率损失。v8是第一代在硅片层面将这些视为不同问题的芯片。
TPU 8t:可扩展到百万芯片的训练网络
TPU 8t是一个积极的代际飞跃。据谷歌称,8t在每个pod中提供2.8倍的FP4 EFlops(121 vs 42.5),双向扩展带宽翻倍至每芯片19.2 Tb/s,扩展网络带宽提升至每芯片400 Gb/s。Pod规模从9,216颗芯片微增至9,600颗。
对IT领导者最重要的数字:8t集群(Superpods)通过谷歌称为Virgo网络的新互连技术,可以在单个训练任务中扩展超过100万颗TPU芯片。8t还引入了TPU直连存储,将数据从谷歌的托管存储层直接移动到HBM,无需通常的CPU中转,减少了完成每个epoch所需的pod小时数。
TPU 8i:为代理重新设计网络
如果说8t是进化式升级,TPU 8i则在架构上更具创新性。8i在每个pod中提供9.8倍的FP8 EFlops、6.8倍的HBM容量,pod规模从256颗增长4.5倍至1,152颗芯片。
推动这些数字的关键是网络本身的重新思考。谷歌与DeepMind合作,构建了名为Boardfly的拓扑结构,专门用于减少网络直径——缩短pod中任意两颗芯片之间的跳数。配合集体加速引擎和超大片上SRAM,8i在实时LLM采样和强化学习方面实现了5倍的延迟改善。
垂直整合护城河
Vahdat展示的核心概念是谷歌的六层AI堆栈:能源、数据中心土地和围护结构、AI基础设施硬件、AI基础设施软件、模型(Gemini 3)和顶层服务。Vahdat指出,孤立地设计每一层会迫使你在每一层都退化到最小公分母,而谷歌是一起设计的。
这就是竞争故事的关键所在。OpenAI、Anthropic、xAI和Meta都严重依赖英伟达硅片来训练前沿模型。他们购买的每一颗H200和Blackwell GPU都带着英伟达的数据中心毛利率——业内分析师两年来一直标记的“英伟达税”。谷歌为TPU支付晶圆、封装和工程成本,但不支付这笔利润。
展望未来,Vahdat做出了两个值得注意的预测:通用CPU将在AI系统中复兴——不是作为加速器,而是作为代理沙箱、虚拟机和工具执行的编排计算;专业化也将持续强劲发展,“两颗芯片可能会变成更多”。
前沿计算竞赛曾经是谁能买到最多H100的问题。现在变成了谁控制整个堆栈的问题。真正在这方面做到的公司名单,目前只有两家:谷歌和英伟达。
发表回复