Google 的智能范式团队发布了一项重要研究,证明通过让标准 AI 模型对抗多样化的对手池进行训练——而非构建复杂的硬编码协调规则——足以产生能够实时相互适应的合作型多代理系统。
多代理系统的核心挑战
AI 领域正快速从孤立系统转向必须同时协商、协作并在共享空间中操作的代理舰队。在这些多代理系统中,任务的成功取决于多个实体的交互和行为。
核心摩擦在于:这些自主代理被设计为最大化各自的特定指标,因此在混合动机场景中,确保它们不会积极破坏彼此极其困难。
传统方法的局限
多代理强化学习(MARL)试图通过训练多个 AI 代理在同一共享环境中同时操作、交互和学习来解决这个问题。然而,在现实世界的企业架构中,单一集中系统很少有对每个移动部件的可见性或控制权。
开发者必须依赖去中心化 MARL,其中个体代理只能访问自己有限的本地数据和观察。
当前企业开发者依赖的框架使用刚性状态机,这些方法在复杂部署中往往撞上可扩展性的墙。
新方法:多样化对手训练
研究人员创建了一个去中心化训练设置,将 AI 与高度多样化的对手池对抗,包括主动学习模型和静态的基于规则的程序。这种强制多样性要求代理动态推断它正在与谁交互,并完全从交互上下文中实时调整行为。
使用迭代囚徒困境作为基准,研究人员在没有任何传统支撑的情况下实现了稳健、稳定的合作——没有人工分离元学习者和内部学习者,也无需硬编码关于对手算法功能的假设。
对 LangGraph 和 CrewAI 用户的启示
研究人员证明,开发者可以使用与当今基础模型完全相同的标准序列建模和强化学习技术实现高级、合作的多代理系统。
对于使用 LangGraph、CrewAI 或 AutoGen 等框架的开发者,建议是:
- 不要训练一小组固定角色的代理
- 实施「混合池」训练例程
- 使用开箱即用的强化学习算法(如 GRPO)
- 让代理与多样化的共同玩家交互
开发者的角色转变
随着依赖上下文行为适应而非硬编码严格规则成为标准,AI 工程的人类元素将发生根本转变。
「AI 应用开发者的角色可能从设计和管理个体交互规则,演变为设计和提供训练环境的高级架构监督,」论文合著者 Alexander Meulemans 表示。这种转变将开发者从编写狭窄的规则手册提升到战略角色,定义确保代理在任何情况下都能有益、安全和协作的广泛参数。
发表回复