在AI芯片市场上,Nvidia几乎成了”垄断”的代名词。但Google显然不想继续当”纳税人”。近日,Google正式发布了第八代张量处理单元——TPU 8t(训练)和TPU 8i(推理),这标志着Google在自研AI芯片道路上迈出了最具野心的一步。
双芯片路线:早在2024年就埋下的伏笔
很多人可能不知道,Google早在2024年就做出了一个关键决策:将训练和推理拆分为两条独立的芯片产品线。这不是一时兴起,而是深思熟虑的战略选择。训练和推理对芯片架构的需求截然不同——训练追求极致的吞吐量,推理则更看重延迟和能效。过去用一颗芯片兼顾两头,结果就是两边都做不到最优。
TPU 8t:百万芯片级的训练怪兽
TPU 8t是专门面向大规模训练场景设计的。最令人震撼的数字是:它支持多达100万颗芯片组成的训练集群。这不是实验室里的概念验证,而是Google规划中的实际部署规模。
- FP4精度下性能提升2.8倍
- 专为大模型训练优化的片间互联架构
- 支持超大规模分布式训练
这个数字意味着什么?目前世界上最大的AI训练集群也不过几万颗GPU。Google直接把目标放在了两个数量级的跨越上。这不是简单的”堆料”,而是从芯片设计、网络架构到软件栈的全链路重构。
TPU 8i:为AI Agent而生的推理利器
如果说TPU 8t是面向未来的”重型武器”,那TPU 8i就是当下的”精准手术刀”。它专门为AI Agent的推理场景优化,延迟降低幅度高达5倍。
为什么AI Agent对推理芯片有特殊要求?因为Agent不是简单的”问一句答一句”,它需要进行多轮推理、工具调用、上下文管理。每一次交互都有严格的延迟要求——用户不可能等3秒钟才看到Agent的第一次响应。TPU 8i正是针对这种高频、低延迟的推理模式进行了深度定制。
垂直整合:Google的终极护城河
Google的真正野心不在于单颗芯片的性能,而在于端到端的垂直整合。从自研芯片(TPU)到自研模型(Gemini),再到自研的训练框架和推理服务,Google正在构建一个完全不依赖外部供应商的AI全栈。
这种垂直整合带来的优势是结构性的:
- 成本优势:不需要向Nvidia支付高昂的”芯片税”,长期来看成本曲线完全不同
- 协同优化:芯片和模型可以联合设计,实现软硬件的极致匹配
- 供应链安全:不被单一供应商绑架,尤其是在Nvidia芯片供不应求的大背景下
对行业的影响
Google的TPU 8系列不仅仅是一次产品发布,它释放了一个明确信号:AI基础设施的竞争正在从”谁买得起更多Nvidia GPU”转向”谁能构建更高效的自研体系”。对于其他科技巨头来说,这既是压力也是启示——依赖外部芯片供应商终究不是长久之计。
当然,Nvidia短期内不会被取代。CUDA生态的成熟度、开发者的使用习惯,这些都是短期内无法复制的壁垒。但Google正在证明:另一条路是走得通的。未来的AI芯片市场,注定不会是一家独大的格局。
发表回复