构建多代理AI系统的企业团队可能正在为在同等预算条件下站不住脚的收益支付额外的计算成本。斯坦福大学的最新研究发现,在复杂推理任务上,当给予相同的思考token预算时,单代理系统的性能与多代理架构相当甚至更优。这一发现对正在规划AI代理架构的企业团队具有重要的实践指导意义。

多代理系统的隐性成本

多代理框架——如规划代理、角色扮演系统或辩论群——通过让多个模型在部分上下文上操作来分解问题,各组件通过传递答案来相互沟通。虽然多代理解决方案在经验上表现出色,但与单代理基线的比较往往是不精确的,因为比较受到测试时计算量差异的严重干扰。

多代理设置需要多次代理交互并生成更长的推理轨迹,这意味着它们消耗的token显著更多。因此,当多代理系统报告更高准确率时,很难确定收益是来自更好的架构设计还是仅仅来自消耗了更多的计算资源。

论文作者Dat Tran和Douwe Kiela告诉VentureBeat:“我们论文的一个核心观点是,单代理系统(SAS)和多代理系统(MAS)之间的许多比较并非苹果对苹果。MAS通常通过额外的调用、更长的轨迹或更多的协调步骤获得更有效的测试时计算。”

严格预算下的公平对决

为了进行公平比较,斯坦福研究人员设定了严格的“思考token”预算。这个指标控制了仅用于中间推理的token总数,不包括初始提示和最终输出。

研究评估了单代理和多代理系统在多跳推理任务上的表现——即需要连接多个不同信息片段来得出答案的问题。实验中,研究人员注意到单代理设置有时会过早停止内部推理,留下未使用的可用计算预算。为此,他们引入了一种名为SAS-L(更长思考的单代理系统)的技术。

实验结果证实,单代理是多跳推理任务的最强默认架构。它在消耗更少推理token的同时产生最高准确率的答案。当与Google的Gemini 2.5等特定模型配对时,延长思考变体产生了更好的综合性能。

信息处理不等式:为什么单一代理更高效

研究人员依靠“信息处理不等式”的概念来解释为什么单代理优于群体。多代理框架引入了固有的通信瓶颈——每次信息在不同代理之间被总结和传递时,都存在数据丢失的风险。

相比之下,在一个连续上下文中推理的单代理避免了这种碎片化。它保留了对任务最丰富可用表示的访问,因此在固定预算下具有更高的信息效率。

研究者还指出,企业常常忽视多代理系统的二次成本。“企业常常低估的是,编排并非免费。每增加一个代理都会引入通信开销、更多的中间文本、更多有损总结的机会,以及更多错误累积的位置。”

什么时候该用多代理?

研究并非完全否定多代理系统的价值。研究人员发现,当单代理的上下文变得过长或被污染时,多代理系统获得了竞争优势。如果企业应用必须处理高度退化的上下文——如充满干扰因素的长输入或损坏的信息——单代理会挣扎。在这些场景中,多代理系统的结构化过滤、分解和验证能更可靠地恢复相关信息。

Tran总结道:“我们论文的主要收获是,多代理结构应被视为针对特定瓶颈的定向工程选择,而非’更多代理自动意味着更好智能’的默认假设。”

对于工程团队来说,决策边界不在于整体任务有多复杂,而在于确切的瓶颈在哪里。“如果主要是推理深度,单代理通常就够了。如果是上下文碎片化或退化,多代理就更有理由了。”