工程师Alexey Grigorev正在使用Claude Code——Anthropic的流行工具,帮助开发者编写和运行代码——来更新一个新网站。

起初一切正常,直到他意识到系统开始摧毁网站的实时环境:网络、服务,以及最关键的是,保存多年课程数据的数据库。

根本原因是一台新笔记本电脑上的小配置错误,让自动化系统混淆了什么是”真实”的、什么是安全删除的,结果它删除了实际的生产系统而不是清理重复内容。

虽然Grigorev最终在AWS支持下恢复了数据,但他后来写道,自己”过度依赖AI代理”,通过让它端到端执行更改,移除了本应防止删除的安全检查。

“AI助手很好,节省了很多时间,”Grigorev告诉《财富》杂志。”但我希望人们从我的错误中学习,并将安全措施纳入他们的工作流程。”

Amazon的AI编码事故

这不是孤例。上周,Amazon在一系列影响其网站和应用程序的中断后召开了”深入分析”会议。至少有一次系统故障涉及AI辅助的更改。

Amazon发言人告诉《财富》,会议是”常规每周运营会议”。公司公开表示只有一次事故涉及AI,”原因与AI无关,而是我们的系统允许工程团队用户错误产生比应有更广泛的影响。”

然而,CNBC和《金融时报》查看的内部Amazon文档最初将”Gen-AI辅助更改”列为”事故趋势”的一个因素。CNBC报道,会议前文档中对AI在故障中作用的引用后来被删除。据《金融时报》,AWS在12月的故障发生在工程师允许Amazon自己的Kiro AI编码工具进行更改之后——Amazon此后称这是”用户错误”。

生产力悖论

AI辅助软件开发的热情在过去几个月达到狂热程度,但错误开始堆积。受AI实验室内部生产力大幅增长故事鼓舞,各行业的大型组织开始推动工程师用AI工具生产更多代码,却往往没有建立适当的监督。

对于大型企业,这些低质量代码可能成为AI的阿喀琉斯之踵。

一位要求匿名的Amazon工程师告诉《财富》:”人们变得如此依赖AI,以至于基本上完全停止审查代码。”这位开发者表示,即使是技术熟练的员工也更多进入”审查角色”而非主动编码,AI处理大部分实际实现。

审查税

CodeRabbit AI副总裁David Loker分享了另一个例子:AI助手生成了看起来完全有效的代码,但建立在对底层系统的错误假设之上。”如果你直接推出,它会在生产环境中摧毁我们的数据库,”他说。

因为AI编码降低了执行某些软件开发任务所需的技术知识,公司正在将通常由高级工程师完成的任务外包给初级或技术较弱的员工,结果发现低质量输出创造的额外工作比节省的还多。

“很多构建的东西质量很差,经常出问题,最终成为负担,”一位伦敦企业软件公司工程师说。”让便宜的人写它赢得的时间,被让收入高得多的人——高级或首席工程师——去修复它所抵消。”

更广泛的数据显示,审查和修复AI辅助工作的负担不成比例地落在更有经验的工程师身上。2025年7月Fastly调查发现,高级工程师发送的AI生成代码比初级工程师多近2.5倍,因为他们更擅长在错误累积前发现错误。但近30%的高级工程师表示修复AI输出消耗了他们节省的大部分时间,而初级开发者只有17%。

AI实验室的成功难以复制

问题部分在于高管层的FOMO。领先AI实验室的工程师一直声称生产力激增,各行业的大型组织希望鼓励类似的增长。

Anthropic的Claude Code负责人Boris Cherny此前表示他几个月没写过一行代码,完全依赖公司的AI模型生成。在Anthropic内部,公司告诉《财富》,其70%到90%的总代码现在是AI生成的。在Spotify,联合CEO Gustav Söderström上个月表示公司最优秀的开发者自12月以来没写过一行代码,使用AI辅助工作流在2025年发布了50多个新功能。

但正如Amazon最近的问题所展示的,在AI实验室和敏捷初创公司最可见的生产力增长可能难以在拥有遗留系统和复杂代码库的大型企业中复制。较小团队可以快速行动并吸收错误,而像Amazon这样的公司运营的基础设施中,单个错误部署可能影响数百万客户。

基准测试的幻觉

还有关于用于衡量AI编码能力的基准是否反映真实世界任务的问题。AI评估组织METR最近的一项研究发现,在一个知名行业测试上被评为通过的AI编码解决方案中,有一半实际上会被人类审查者因质量不足而拒绝。

牛津马丁AI治理倡议高级研究员Toby Ord表示,当前对AI编码能力的估计”确实高估了,可能高估了相当大的倍数。”

另一个问题是如何衡量AI编码的”成功”。CodeRabbit的Loker说:”衡量吞吐量增加很容易。此时很难衡量因果关系。”当AI参与时,传统用于衡量开发者生产力的指标——发布的功能、提交的代码——看起来很强,但不捕获下游后果如错误、回滚或清理时间。

技术债务危机

大规模推出AI的公司还冒着积累工程师所谓技术债务的风险——短期有效但维护成本越来越高的代码。

“我们使用AI产生技术债务的速度是我无法想象的,”Loker说。”可能是之前的3到4倍。”

Apiiro安全公司的研究显示,使用AI的开发者引入的安全问题大约是不使用AI的十倍。CodeRabbit分析470个开源GitHub拉取请求的12月报告发现,AI撰写的代码包含的问题整体上比人工撰写的多约1.7倍。

前进之路

对于企业,教训是明确的:AI编码工具可以带来显著效率提升,但需要深思熟虑的实施和持续的人类监督。

Grigorev的经历提供了具体的教训:Claude Code有设置让用户控制代理在采取行动前何时以及多久检查用户。用户可以指定代理在采取某些行动前必须获得用户许可。但一些编码者更喜欢让AI代理更自主地执行决策,部分原因是节省时间。

随着AI编码工具的采用加速,企业需要在速度和安全之间找到平衡——否则可能发现生产系统成为AI错误的下一个受害者。