数周以来,越来越多的开发者和AI重度用户声称Anthropic的旗舰模型正在失去优势。用户在GitHub、X和Reddit上报告了一种被称为“AI缩水”的现象——Claude似乎在持续推理方面能力下降、更容易产生幻觉、且在token使用上愈发浪费。如今,Anthropic终于正面回应了这些关切,发布了一份技术事后分析报告,确认了三个导致质量下降的产品层变更。

事件背景:从怀疑到证实

这场争议在2026年4月初达到高潮。AMD AI团队高级总监Stella Laurenzo在GitHub上发布了一份详尽的审计报告,分析了6,852个Claude Code会话文件和超过234,000次工具调用,显示出相比此前使用的性能明显下降。她的发现表明,Claude的推理深度急剧下降,导致推理循环和倾向于选择“最简单的修复”而非正确的修复。

第三方基准测试似乎也验证了这种挫败感。BridgeMind报告称Claude Opus 4.6的准确率从83.3%降至68.3%,排名从第2位暴跌至第10位。尽管一些研究者认为这些特定基准比较因测试范围不一致而存在瑕疵,但Claude变得“更笨”的叙事已成为病毒式传播的话题。用户还报告使用额度消耗速度超出预期,引发了Anthropic有意限制性能以应对激增需求的怀疑。

三大根因

Anthropic在事后分析中澄清,虽然底层模型权重没有退化,但围绕模型的“马具”(harness)发生了三个特定变更,无意中损害了性能:

默认推理力度变更。3月4日,Anthropic将Claude Code的默认推理力度从高改为中,以解决UI延迟问题。这一变更旨在防止界面在模型思考时出现“冻结”,但导致复杂任务的智能水平明显下降。

缓存逻辑漏洞。3月26日上线的一个缓存优化本应在一小时不活动后清除旧的“思考”历史,但包含了一个关键漏洞:它不是在闲置一小时后清除一次,而是在每次后续交互时都清除,导致模型失去“短期记忆”,变得重复或健忘。

系统提示冗长度限制。4月16日,Anthropic在系统提示中添加了指令,要求工具调间文本不超过25个单词、最终回答不超过100个单词。这一试图减少Opus 4.7冗余的措施适得其反,导致编码质量评估下降了3%。

影响范围与补偿措施

质量问题不仅限于Claude Code CLI,还影响了Claude Agent SDK和Claude Cowork,但Claude API未受影响。Anthropic承认这些变更使模型看起来“智能下降”,并承认这不是用户应有的体验。

为重建用户信任并防止未来回退,Anthropic宣布了多项运营变革:

首先,更多内部员工将被要求使用与公众完全相同的Claude Code版本,确保他们体验到与用户一致的产品。其次,公司将在每次系统提示变更时运行更广泛的逐模型评估和“消融实验”,以分离特定指令的影响。第三,新工具将使提示变更更容易审计,模型特定变更将被严格限定在目标范围内。

作为补偿,Anthropic已于4月23日重置了所有订阅者的使用额度上限。公司还计划通过新的@ClaudeDevs账号和GitHub线程提供更透明的产品决策对话。

这一事件为整个AI行业敲响了警钟:模型能力固然重要,但围绕模型的产品层工程——从系统提示到缓存策略到推理力度——同样深刻地影响着用户体验。在追求前沿性能的同时,基础工程质量的重要性不容忽视。