液冷AI系统的存储困境：传统架构为何成为扩展瓶颈

液冷技术正在改写AI基础设施的规则，但大多数部署尚未完全跨越界限。GPU和CPU已经转向液冷，而存储仍然依赖气流，这创造了一个运营效率低下的混合架构。

表面上这是一个务实的过渡策略，但实际上是一个结构性负担。

混合冷却的隐性成本

混合冷却方法是一个运营效率低下的情况。你正在支付和维护两套完全独立的昂贵冷却基础设施，可能面临两个世界最坏情况的问题。

液冷需要泵、流体歧管和冷却剂分配单元，而风冷组件需要机房空调、冷通道和蒸发冷却塔。通过简单添加一些液冷来转向混合解决方案的组织，正在承担成本溢价却没有获得完整的TCO收益。

热物理学的挑战

热物理学使情况更加恶化。笨重的液冷冷板、粗大的软管和歧管在物理上阻碍了GPU服务器机箱内的气流。这使剩余的风冷组件（包括存储驱动器、内存和网络卡）的热应力集中，因为服务器风扇无法在液冷管道周围推送足够的气流。

最依赖风扇的组件最终处于最糟糕的热环境中。

水资源消耗问题

水资源消耗是一个几乎被忽视但同样严重的问题。传统的风冷组件依赖服务器风扇将热量转移到环境空气中，然后被水回路吸收并泵送到蒸发冷却塔。这些系统随着时间推移可能消耗数百万加仑的水。

随着机架功率密度持续攀升以支持现代AI工作负载，蒸发水惩罚变得环境和经济上都不合理。

存储角色的根本转变

当AI基础设施向液冷和无风扇GPU系统演进时，规模的真正约束正从计算性能转向系统级热设计。现代AI平台不再是逐台服务器构建，而是作为紧密集成的机架和单元级系统工程，其中电源输送、冷却分配和组件放置密不可分。

在这种环境中，为依赖气流的数据中心设计的存储架构正成为限制因素。当GPU平台完全进入由机架级CDU锚定的共享液冷域时，系统中的每个组件都必须在同一热和机械设计中原生运行。存储不能再依赖隔离的冷却路径或定制的热假设，否则会在系统层面引入低效、复杂性或密度权衡。

存储不再是被动子系统

对于基础设施领导者，这标志着根本性转变。存储不再是附加到计算的被动子系统，而是系统级冷却、可服务性和GPU利用率的积极参与者。扩展AI的能力现在取决于存储是否能干净地集成到液冷GPU系统中，而不分割冷却架构或限制机架级设计。

AI竞赛不再只是关于谁拥有最多的GPU，而是关于谁能保持它们冷却。

KV缓存卸载的压力

像KV缓存卸载这样的技术——在推理过程中在GPU内存和高速存储之间移动数据——使存储延迟和热性能直接关系到模型服务效率。在这些架构中，在热负载下因传统气流不良而节流的存储子系统会减慢读取和模型本身。

转向集成液冷

从传统的风冷GPU服务器转向集成液冷机架可提高电源使用效率并降低数据中心运营成本。它还取代了嘈杂的机房空调，引入了现代高效的液冷CDU，如果机架可以冷却到45摄氏度的液体温度，甚至可能消除冷水机组。

当存储在没有风扇的情况下通过液体冷却时，它还必须支持无液体泄漏的可服务性。它还创造了一个许多基础设施团队刚刚开始应对的新要求：机架中的每个组件都必须在同一冷却架构中原生运行。

存储设计的新挑战

存储设计不再是孤立的工程问题。它是GPU利用率、系统可靠性和运营效率的直接变量。解决方案是从头开始为液冷、无风扇环境重新设计存储。

这比听起来更难。传统SSD设计假设气流用于热管理，并将组件放置在隔热PCB的两侧。在CDU锚定的架构中，这两个假设都不成立。

SSD需要设计一流的热解决方案，专门有效地从内部组件传导热量并将其转移到流体。设计必须包括一个低阻力路径，将热量传递到附着在一侧的单个冷板。

同时，驱动器必须支持在插入和移除期间无液体泄漏的可服务性，并且不降低驱动器和冷板之间的热接口。

行业标准的统一

更广泛的行业正在围绕标准联合起来，确保液冷AI系统可互操作而非自定义解决方案的拼凑。SNIA和开放计算项目是推动这项工作的主要机构。

Solidigm主导了E1.S外形规格液冷的行业标准SFF-TA-1006，是OCP涵盖机架设计、热管理和可持续性工作流程的积极参与者。

存储的定制、定制冷却解决方案正在让位于标准对齐、生产就绪的设计，干净地集成到液冷GPU平台中。

系统级架构的新规则

由于液冷和浸没冷却技术的出现，系统级架构的设计规则已经改变，这些技术允许更独特的设计规则并消除一些障碍。系统驱动仅NVMe SSD平台的能力也允许移除HDD解决方案中存在的基于盘片的盒约束。

客户因其与生态系统的深度技术对齐而在产品路线图决策中发挥积极作用。不仅仅是制造和销售产品，而是与合作伙伴、客户及其客户集成、共同设计、共同开发和创新。

对AI基础设施的启示

对于AI基础设施团队，这意味着：

存储规划必须前置：在新系统设计阶段就需要考虑存储的冷却需求
标准化是关键：选择符合行业标准SFF-TA-1006等规范的存储解决方案
TCO计算需要更新：混合冷却的隐性成本需要在总拥有成本分析中体现
供应商合作加深：与存储供应商共同设计系统级解决方案

液冷AI基础设施的未来不再是关于更快地冷却GPU，而是关于设计一个每个组件——包括存储——都原生适应这一新范式的整体系统。能够解决这一存储挑战的组织将在AI规模化竞赛中获得决定性优势。

液冷AI系统的存储困境：传统架构为何成为扩展瓶颈

混合冷却的隐性成本

热物理学的挑战

水资源消耗问题

存储角色的根本转变

存储不再是被动子系统

KV缓存卸载的压力

转向集成液冷

存储设计的新挑战

行业标准的统一

系统级架构的新规则

对AI基础设施的启示

发表回复取消回复

最新文章

文章分类

液冷AI系统的存储困境：传统架构为何成为扩展瓶颈

混合冷却的隐性成本

热物理学的挑战

水资源消耗问题

存储角色的根本转变

存储不再是被动子系统

KV缓存卸载的压力

转向集成液冷

存储设计的新挑战

行业标准的统一

系统级架构的新规则

对AI基础设施的启示

发表回复 取消回复

最新文章

文章分类

发表回复取消回复