谷歌TPU v8发布：不交“英伟达税”的底气，双芯片战略直指AI计算未来

每个前沿AI实验室眼下都在两样东西上精打细算：电力和算力。大多数实验室从同一个供应商那里购买模型训练所需的计算资源，承受着让英伟达成为全球最有价值公司之一的高昂毛利率。谷歌是个例外。

在拉斯维加斯F1 Plaza的一场私人活动上，谷歌预览了其第八代张量处理单元（TPU）。核心信息是：两款定制芯片设计将于今年晚些时候出货，各自专为现代AI工作负载的不同半边而生。TPU 8t面向前沿模型训练，TPU 8i面向低延迟、高内存需求的代理推理和实时采样世界。

为什么一颗芯片不够：2024年的双芯片赌注

谷歌AI和基础设施高级副总裁兼首席技术专家Amin Vahdat透露，分叉路线图的决定是在2024年做出的——比整个行业转向推理模型、代理和强化学习作为主流前沿工作负载早了一年。“我们在两年前就意识到，一年一颗芯片不够，”Vahdat说。“这是我们第一次真正推出两颗超高性能的专用芯片。”

对企业买家来说，含义很具体：在Google Cloud上运行微调或大规模训练的客户，以及在Vertex AI上服务生产代理的客户，一直在租用相同的加速器并承受效率低下。V8是第一个硅片层面将这些问题视为不同问题的世代。

TPU 8t：训练芯片的规模化飞跃

TPU 8t是一个积极的代际跃升。根据谷歌数据，8t在每Pod的FP4 EFlops上比2025年出货的第七代TPU Ironwood提升2.8倍（121对42.5），双向扩展带宽翻倍至每芯片19.2 Tb/s，扩展网络四倍提升至每芯片400 Gb/s。Pod规模从9216微增至9600芯片，由谷歌的3D Torus拓扑连接。

对IT领导者最重要的数字：8t集群（Superpods）通过谷歌称为Virgo网络的新互联技术，可以在单个训练任务中扩展超过100万颗TPU芯片。8t还引入了TPU Direct Storage，将数据从谷歌托管存储层直接移入HBM，跳过了通常的CPU中介环节，对于长时间训练任务可显著减少每个epoch所需的Pod小时数。

TPU 8i：为AI代理重新设计网络

如果说8t是进化式升级，TPU 8i在架构上更具革命性。8i的规格跳跃堪称惊人：每Pod的FP8 EFlops提升9.8倍，HBM容量提升6.8倍，Pod规模从256增长4.5倍至1152芯片。

驱动这些数字的是对网络本身的重新思考。谷歌默认的芯片连接方式支持的是带宽优先而非延迟优先——对大数据吞吐量有利，但不适合代理所需的最低响应时间。谷歌与DeepMind合作构建了Boardfly拓扑，专门用于减少Pod内任意两颗芯片之间的网络跳数。配合聚合加速引擎和超大芯片上SRAM，8i声称在实时LLM采样和强化学习延迟方面提升5倍。

垂直整合护城河

Vahdat展示了谷歌称为AI技术栈的六层图：能源、数据中心、AI基础设施硬件、AI基础设施软件、模型（Gemini 3）和顶层服务。谷歌从头到尾设计每一层。OpenAI、Anthropic和Meta都严重依赖英伟达芯片训练前沿模型——每颗GPU都带着英伟达的数据中心毛利率，即行业分析师标记了两年的“英伟达税”。谷歌的TPU则只承担制造、封装和工程成本，不支付那层溢价。

前沿计算竞赛曾经是谁能买到最多H100的问题，现在变成了谁控制整个技术栈。目前真正做到这一点的公司只有两家：谷歌和英伟达。

谷歌TPU v8发布：不交“英伟达税”的底气，双芯片战略直指AI计算未来

为什么一颗芯片不够：2024年的双芯片赌注

TPU 8t：训练芯片的规模化飞跃

TPU 8i：为AI代理重新设计网络

垂直整合护城河

发表回复取消回复

最新文章

文章分类

谷歌TPU v8发布：不交“英伟达税”的底气，双芯片战略直指AI计算未来

为什么一颗芯片不够：2024年的双芯片赌注

TPU 8t：训练芯片的规模化飞跃

TPU 8i：为AI代理重新设计网络

垂直整合护城河

发表回复 取消回复

最新文章

文章分类

发表回复取消回复