斯坦福研究揭示：你可能在为AI“群体税”买单——单代理往往优于多代理系统

构建多代理AI系统的企业团队可能正在为计算额外成本买单，而获得的收益在同等预算条件下并不成立。斯坦福大学的新研究发现，在复杂推理任务上，当给予相同的思考token预算时，单代理系统匹配或优于多代理架构。

多代理系统的隐藏成本

多代理框架——如规划代理、角色扮演系统或辩论群体——通过让多个模型在部分上下文中操作来分解问题。这些组件通过传递彼此的答案来通信。虽然多代理方案展示了强大的经验性能，但与单代理基线的比较往往不够精确，因为比较受到测试时计算量差异的严重干扰。

论文作者Dat Tran和Douwe Kiela对VentureBeat表示：“我们论文的一个核心观点是，许多单代理系统（SAS）和多代理系统（MAS）之间的比较不是苹果对苹果的。MAS通常通过额外的调用、更长的跟踪或更多的协调步骤获得更有效的测试时计算。”

为了进行公平比较，斯坦福研究人员设置了严格的“思考token”预算。这个指标控制仅用于中间推理的token总数，不包括初始提示和最终输出。研究在多跳推理任务上评估了单代理和多代理系统。

实验中，研究人员注意到单代理设置有时会提前停止内部推理，留下未使用的计算预算。为此，他们引入了一种称为SAS-L（更长思考的单代理系统）的技术。与其在模型提前放弃时跳转到多代理编排，研究人员建议一个简单的提示和预算变更：首先重构单代理提示，使模型被明确鼓励在回答前分析上花费其可用推理预算。

实验结果证实，单代理是多跳推理任务的最强默认架构。它在消耗更少推理token的同时产生最高准确率的回答。当与谷歌Gemini 2.5等特定模型配对时，更长思考变体甚至产生更好的综合性能。

研究人员依赖“数据处理不等式”概念来解释为什么单代理优于群体。多代理框架引入了固有的通信瓶颈。每次信息在不同代理之间被总结和传递时，都存在数据丢失的风险。相比之下，单个代理在连续上下文中推理避免了这种碎片化，保留了对任务最丰富可用表示的访问，因此在固定预算下信息效率更高。

作者还指出，企业经常忽视多代理系统的次要成本：“企业经常低估的是编排并非免费的。每增加一个代理都会引入通信开销、更多中间文本、更多有损总结的机会，以及更多错误复合的地方。”

另一方面，当单代理环境变得混乱时，多代理编排更优。如果企业应用必须处理高度退化的上下文——如有噪声的数据、充满干扰的长输入或损坏的信息——单代理会挣扎。在这些场景中，多代理系统的结构化过滤、分解和验证可以更可靠地恢复相关信息。

Tran总结道：“多代理结构应被视为针对特定瓶颈的定向工程选择，而不是’更多代理自动意味着更好智能’的默认假设。”这意味着企业技术决策者需要仔细评估：如果瓶颈主要是推理深度，单代理通常足够；如果是上下文碎片化或退化，多代理才更有防御力。