Google 的 Paradigms of Intelligence 团队发布了一项重要研究,发现训练标准 AI 模型与多样化的对手池进行对抗——而非构建复杂的硬编码协调规则——足以产生能够即时相互适应的协作多智能体系统。这一发现为企业多智能体部署提供了可扩展且计算高效的蓝图。
多智能体系统为何难以协作
AI 领域正迅速从孤立系统转向必须同时协商、协作和在共享空间中操作的智能体舰队。在多智能体系统中,任务的成功取决于多个实体的交互和行为,而非单一智能体。
核心摩擦在于这些多智能体系统的交互经常涉及竞争目标。由于这些自主智能体被设计为最大化其特定指标,确保它们在这些混合动机场景中不主动相互破坏极其困难。
多智能体强化学习(MARL)试图通过在共享环境中同时操作、交互和学习多个 AI 智能体来解决这个问题。然而,在现实世界的企业架构中,单一的集中式系统很少能对所有移动部分有可见性或控制权。开发者必须依赖去中心化 MARL,其中各个智能体只能访问自己的有限本地数据和观察。
传统方法的局限性
去中心化 MARL 的主要问题之一是智能体经常在试图最大化自己特定奖励时陷入次优状态。研究人员基于博弈论中的「囚徒困境」将其称为「相互背叛」。例如,两个自动定价算法陷入恶性降价竞争。由于每个智能体严格优化自己的自私奖励,它们陷入僵局,更广泛的企业因此受损。
另一个问题是传统训练框架为静态环境设计,意味着游戏规则和环境行为相对固定。在多智能体系统中,从任何单一智能体的角度来看,环境根本上是不可预测且不断变化的,因为其他智能体同时在学习和调整自己的策略。
新方法:多样化对手训练
研究人员创建了一个去中心化训练设置,让 AI 与高度多样化的混合对手池进行对抗,包括积极学习的模型和静态的基于规则的程序。这种强制的多样性要求智能体动态推断它在与谁交互,并完全从交互上下文中实时调整其行为。
该方法被称为预测策略改进(PPI),研究人员证明开发者可以使用与当今基础模型完全相同的标准序列建模和强化学习技术实现高级协作多智能体系统。
「与其训练一组具有固定角色的小型智能体,团队应该实施『混合池』训练例程,」研究合著者 Alexander Meulemans 表示,「开发者可以使用标准的开箱即用强化学习算法(如 GRPO)重现这些动态。」
对开发者的意义
对于使用 LangGraph、CrewAI 或 AutoGen 的开发者,这一发现具有重要意义。LangGraph 等框架要求开发者显式定义智能体、状态转换和路由逻辑为图。Google 的方法颠覆了这一模型:不是硬编码智能体应该如何协调,而是通过训练产生协作行为,让智能体从上下文中推断协调规则。
研究人员的核心发现是:智能体在没有任何关于对手算法功能假设的情况下表现更好,被强制通过试错来适应其行为。当被给予一个多样化智能体池并允许自己探索规则时,多智能体训练效果最佳。
开发者角色的转变
随着依赖上下文行为适应成为标准而非硬编码严格规则,AI 工程的人员要素将发生根本转变。
「AI 应用开发者的角色可能从设计和管理个人交互规则演变为设计和提供训练环境的高级架构监督,」Meulemans 表示。这种转变将开发者从编写狭窄规则手册提升到战略角色,定义确保智能体在任何情况下都能乐于助人、安全和协作的广泛参数。
发表回复