构建多代理AI系统的企业团队可能正在为计算额外成本买单,而获得的收益在同等预算条件下并不成立。斯坦福大学的新研究发现,在复杂推理任务上,当给予相同的思考token预算时,单代理系统匹配或优于多代理架构。

多代理系统的隐藏成本

多代理框架——如规划代理、角色扮演系统或辩论群体——通过让多个模型在部分上下文中操作来分解问题。这些组件通过传递彼此的答案来通信。虽然多代理方案展示了强大的经验性能,但与单代理基线的比较往往不够精确,因为比较受到测试时计算量差异的严重干扰。

论文作者Dat Tran和Douwe Kiela对VentureBeat表示:“我们论文的一个核心观点是,许多单代理系统(SAS)和多代理系统(MAS)之间的比较不是苹果对苹果的。MAS通常通过额外的调用、更长的跟踪或更多的协调步骤获得更有效的测试时计算。”

严格预算下的公平比较

为了进行公平比较,斯坦福研究人员设置了严格的“思考token”预算。这个指标控制仅用于中间推理的token总数,不包括初始提示和最终输出。研究在多跳推理任务上评估了单代理和多代理系统。

实验中,研究人员注意到单代理设置有时会提前停止内部推理,留下未使用的计算预算。为此,他们引入了一种称为SAS-L(更长思考的单代理系统)的技术。与其在模型提前放弃时跳转到多代理编排,研究人员建议一个简单的提示和预算变更:首先重构单代理提示,使模型被明确鼓励在回答前分析上花费其可用推理预算。

实验结果证实,单代理是多跳推理任务的最强默认架构。它在消耗更少推理token的同时产生最高准确率的回答。当与谷歌Gemini 2.5等特定模型配对时,更长思考变体甚至产生更好的综合性能。

数据处理不等式解释原因

研究人员依赖“数据处理不等式”概念来解释为什么单代理优于群体。多代理框架引入了固有的通信瓶颈。每次信息在不同代理之间被总结和传递时,都存在数据丢失的风险。相比之下,单个代理在连续上下文中推理避免了这种碎片化,保留了对任务最丰富可用表示的访问,因此在固定预算下信息效率更高。

作者还指出,企业经常忽视多代理系统的次要成本:“企业经常低估的是编排并非免费的。每增加一个代理都会引入通信开销、更多中间文本、更多有损总结的机会,以及更多错误复合的地方。”

什么时候该用多代理?

另一方面,当单代理环境变得混乱时,多代理编排更优。如果企业应用必须处理高度退化的上下文——如有噪声的数据、充满干扰的长输入或损坏的信息——单代理会挣扎。在这些场景中,多代理系统的结构化过滤、分解和验证可以更可靠地恢复相关信息。

Tran总结道:“多代理结构应被视为针对特定瓶颈的定向工程选择,而不是’更多代理自动意味着更好智能’的默认假设。”这意味着企业技术决策者需要仔细评估:如果瓶颈主要是推理深度,单代理通常足够;如果是上下文碎片化或退化,多代理才更有防御力。