企业团队在构建多代理AI系统时,可能正在为效果并不显著的计算开销买单。斯坦福大学的最新研究发现,在相同思考token预算下,单代理系统在复杂推理任务上的表现与多代理架构持平甚至更优。
多代理系统的隐藏成本
多代理框架——如规划代理、角色扮演系统或辩论群体——通过让多个模型在部分上下文上运行来分解问题,组件之间通过传递答案进行通信。虽然多代理方案在经验上表现出色,但与单代理基线的比较往往不够精确——差异被测试时计算量的不同严重混淆了。多代理设置需要多次代理交互并生成更长的推理轨迹,意味着它们消耗显著更多的token。
因此,当多代理系统报告更高准确率时,很难确定增益是来自更好的架构设计,还是仅仅来自花费了更多计算资源。正如论文作者Dat Tran和Douwe Kiela向VentureBeat表示的:“我们论文的一个核心观点是,单代理系统(SAS)和多代理系统(MAS)之间的许多比较并非苹果对苹果。MAS往往通过额外调用、更长的推理链或更多协调步骤获得更多有效的测试时计算。”
严格预算下的公平比较
为了创造公平的比较,斯坦福研究者设定了严格的“思考token”预算。该指标控制专用于中间推理的token总数,不包括初始提示和最终输出。研究在多跳推理任务上评估了单代理和多代理系统——即需要连接多条分散信息才能得出答案的问题。
在实验过程中,研究者发现单代理设置有时会过早停止内部推理,留下未使用的可用计算预算。为了应对这一问题,他们引入了一种名为SAS-L(更长思考的单代理系统)的技术。与其在模型放弃时跳转到多代理编排,研究者建议一个简单的提示和预算调整:重新构造单代理提示,使模型被明确鼓励在给出最终答案前花费可用推理预算进行分析。
实验结果证实,单代理是多跳推理任务的最强默认架构——它以更少的推理token产生最高准确率的答案。当与Google的Gemini 2.5等特定模型配对时,更长思考的变体产生了更好的聚合性能。
数据处理不等式:为什么单代理胜过群体
研究者依靠一个名为“数据处理不等式”的概念来解释为什么单代理优于群体。多代理框架引入了固有的通信瓶颈——每次信息被汇总并在不同代理之间传递时,都存在数据丢失的风险。相比之下,在连续上下文内推理的单代理避免了这种碎片化,保留了对任务最丰富表示的访问,因此在固定预算下具有更高的信息效率。
研究者还指出,企业常常低估多代理系统的隐性成本:“企业常常低估的是,编排并非免费。每增加一个代理就引入了通信开销、更多中间文本、更多有损汇总的机会,以及更多错误累积的位置。”
何时才真正需要多代理
然而,研究也发现了多代理系统的一个优势场景:当单代理的上下文环境变得混乱时。如果企业应用必须处理高度退化的上下文——充满噪声的数据、充满干扰物的长输入或被损坏的信息——单代理会很吃力。在这些场景中,多代理系统的结构化过滤、分解和验证可以更可靠地恢复相关信息。
对于开发者而言,决策边界不在于任务的复杂程度,而在于确切的瓶颈在哪里。“如果主要是推理深度,SAS通常就够了。如果是上下文碎片化或退化,MAS变得更加合理。”工程团队应在任务可以在一个连贯的上下文窗口内处理时坚持使用单代理,只有在应用处理高度退化上下文时才转向多代理系统。
正如研究者所总结的:“多代理结构应被视为针对特定瓶颈的定向工程选择,而不是’更多代理自动意味着更好智能’的默认假设。”
发表回复