我在企业AI部署中见过的最昂贵的故障,没有产生任何错误。没有告警触发,没有仪表盘变红。系统完全正常运行——只是持续地、自信地给出错误答案。这就是可靠性鸿沟,也是大多数企业AI项目没有设计来捕捉的问题。
过去两年,我们在评估模型方面变得非常娴熟:基准测试、准确率评分、红队演练、检索质量测试。但在生产环境中,模型很少是系统崩溃的地方。真正出问题的是基础设施层——喂给模型的数据管道、包装它的编排逻辑、为它提供依据的检索系统、信任其输出的下游工作流。而这一层仍在用为另一种软件设计的工具进行监控。
没人测量的鸿沟
这个问题难以发现的原因在于:操作健康和行为可靠不是一回事,而大多数监控堆栈无法区分两者。
一个系统可以在所有基础设施指标上显示绿色——延迟在SLA内、吞吐量正常、错误率平稳——但同时可能在推理基于六个月前的过时检索结果、在工具调用降级后静默回退到缓存上下文、或者在多步骤代理工作流中传播误解。这些都不会出现在Prometheus中,也不会触发Datadog告警。
原因很直接:传统可观测性是为了回答“服务是否在线?”这个问题而构建的。企业AI需要回答一个更难的问题:“服务的行为是否正确?”这是两种不同的仪表。
四种标准监控无法捕获的故障模式
第一种:上下文降级。模型基于不完整或过时的数据进行推理,而终端用户对此毫不知情。答案看起来很完美,但依据已经不存在了。发现通常发生在数周之后,通过下游后果而非系统告警。
第二种:编排漂移。代理管道很少因为某个组件崩溃而失败。它们失败是因为检索、推理、工具使用和下游操作之间的交互序列在真实负载下开始偏离。一个在测试中看起来稳定的系统,在延迟跨步骤累积和边缘情况叠加时,行为会大不相同。
第三种:静默部分失败。某个组件在不跨越告警阈值的情况下表现不佳。系统在操作降级之前就已经在行为上降级了。这些故障悄悄积累,首先以用户不信任而非事故工单的形式浮现。
第四种:自动化爆炸半径。在传统软件中,局部缺陷保持局部性。在AI驱动的工作流中,链中早期的一个误解可以跨步骤、跨系统、跨业务决策传播。成本不仅仅是技术性的,它变成了组织性的,而且很难逆转。
如何应对:扩展四个能力
添加行为遥测。在基础设施遥测旁边添加行为遥测层。跟踪响应是否有依据、是否触发了回退行为、置信度是否降至有意义的阈值以下、输出是否适合其进入的下游上下文。
引入语义故障注入。在预生产环境中故意模拟过时的检索、不完整的上下文组装、工具调用降级和token边界压力。目标不是戏剧性的混乱,而是找出系统在条件稍差于预演环境时的行为——而这正是生产环境的常态。
定义安全停止条件。AI系统需要在推理层设置断路器。如果系统无法保持依据、验证上下文完整性或以足够置信度完成工作流,它应该干净地停止,标记故障,并将控制权交给人工或确定性回退。优雅停止几乎总是比流利的错误更安全。
分配端到端可靠性的共同所有权。最常见的组织故障是模型团队、平台团队、数据团队和应用团队之间的清晰分离。当系统在操作上在线但行为上错误时,没有人明确拥有它。语义故障需要一个所有者。
昨天的差异化是模型采用,今天的差异化是系统集成,明天的差异化将是在生产压力下的可靠性。最早到达那里的企业不会拥有最先进的模型,而是拥有围绕模型的最严格的基础设施。
发表回复