xMemory突破：AI代理长记忆的token消耗减半

标准RAG管道在企业尝试用于长期、多会话LLM代理部署时会失效。随着对持久AI助手需求的增长，这已成为一个关键限制。

伦敦国王学院和艾伦图灵研究所的研究人员开发的xMemory技术通过将对话组织成可搜索的语义主题层级结构解决了这个问题。实验显示，xMemory在提高各LLM答案质量和长程推理能力的同时，将推理token使用量从每查询9000多个降至约4700个。

RAG不是为这个设计的

在企业LLM应用中，一个关键期望是这些系统能够在长期、多会话交互中保持连贯性和个性化。支持这种长程推理的常见方法是使用标准RAG：存储过去的对话和事件，基于嵌入相似性检索固定数量的顶部匹配，并将它们连接到上下文窗口以生成答案。

然而，传统RAG是为大型数据库设计的，检索的文档高度多样化，主要挑战是过滤掉完全不相关的信息。而AI代理的记忆是有界的、连续的对话流，存储的数据块高度相关，经常包含近重复内容。

论文共同作者Lin Gui解释道：”如果检索坍缩到嵌入空间中最密集的簇，代理可能获得许多关于偏好的高度相似段落，同时错过回答实际查询所需的类别事实。”

为什么常见修复方案适得其反

工程团队的常见修复是应用检索后修剪或压缩来过滤噪声。这些方法假设检索的段落高度多样化，无关噪声模式可以与有用事实干净地分离。

但在对话代理记忆中这种方法行不通，因为人类对话是”时间纠缠的”——对话记忆严重依赖共指、省略和严格的时间线依赖。由于这种相互关联性，传统修剪工具经常意外删除对话的重要部分，使AI失去准确推理所需的关键上下文。

四层级级结构

xMemory将持续将原始对话流组织成结构化的四层层级：

原始消息：对话的原始记录
片段(Episodes)：消息被总结为连续块
语义(Semantics)：从片段中提炼可重用事实，将核心长期知识与重复聊天记录解耦
主题(Themes)：相关语义被组织为高层主题，便于搜索

xMemory使用特殊的目标函数持续优化这些项目的分组方式。这防止类别过于臃肿（降低搜索速度）或过于碎片化（削弱模型聚合证据和回答问题的能力）。

不确定性门控机制

当收到提示时，xMemory在层级结构中执行自顶向下的检索。它从主题和语义层开始，选择一个多样化、紧凑的相关事实集合。这对用户查询经常需要跨多个主题收集描述或链接连接事实进行复杂多跳推理的实际应用至关重要。

一旦有了这个高层事实骨架，系统通过”不确定性门控”控制冗余。只有当特定细节可测量地降低模型的不确定性时，它才会深入提取片段或消息层的更细原始证据。

“语义相似性是候选生成信号；不确定性是决策信号，”Gui说。”相似性告诉你什么在附近。不确定性告诉你什么真正值得在提示预算中付费。”当检测到添加更多细节不再有助于回答问题时，它就会停止扩展。

与现有方案对比

现有代理记忆系统通常分为两类：

扁平设计（如MemGPT）：记录原始对话或最小处理的痕迹，捕获对话但积累大量冗余，随着历史增长检索成本增加。

结构化设计（如A-MEM和MemoryOS）：尝试将记忆组织成层级或图，但仍依赖原始或最小处理的文本作为主要检索单元，经常拉取大量臃肿的上下文。

xMemory通过优化的记忆构建方案、层级检索和记忆增长时的动态重组解决这些限制。

何时使用xMemory

对于企业架构师，知道何时采用这种架构而非标准RAG至关重要。Gui表示：”xMemory在系统需要跨数周或数月交互保持连贯的场景中最有说服力。”

客服代理是理想用例，因为它们必须记住稳定的用户偏好、过去事件和账户特定上下文，而不必反复拉取近重复的支持工单。个性化辅导是另一个理想场景，需要AI将持久用户特征与日常细节分离。

相反，如果企业构建与文件库（如政策手册或技术文档）聊天的AI，”更简单的RAG栈仍然是更好的工程选择，”Gui说。在这些静态、以文档为中心的场景中，语料库足够多样化，标准最近邻检索就能很好工作。

写入税的权衡

xMemory削减了LLM最终答案生成相关的延迟瓶颈。在标准RAG系统中，LLM被迫阅读和处理充满冗余对话的臃肿上下文窗口。由于xMemory精确的自顶向下检索构建了更小、高度针对性的上下文窗口，阅读器LLM在分析提示和生成最终输出上花费的计算时间大大减少。

然而，这种高效检索有前期成本。对于企业部署，xMemory的权衡是用大量读取税换取前期写入税。虽然最终使回答用户查询更快更便宜，但维护其复杂架构需要大量后台处理。

与廉价地将原始文本嵌入倒入数据库的标准RAG管道不同，xMemory必须执行多个辅助LLM调用来检测对话边界、总结片段、提取长期语义事实和合成主题。

下一步：记忆治理

虽然xMemory为当前的上下文窗口限制提供了强大解决方案，但它为代理工作流的下一代挑战扫清了道路。随着AI代理在更长时间范围内协作，仅仅找到正确信息将不够。

“检索是一个瓶颈，但一旦检索改进，这些系统很快会遇到生命周期管理和记忆治理作为下一个瓶颈，”Gui说。如何处理数据衰减、用户隐私和在多个代理间维护共享记忆，”正是我期待下一波工作发生的领域。”

xMemory突破：AI代理长记忆的token消耗减半

RAG不是为这个设计的

为什么常见修复方案适得其反

四层级级结构

不确定性门控机制

与现有方案对比

何时使用xMemory

写入税的权衡

下一步：记忆治理

发表回复取消回复

最新文章

文章分类

xMemory突破：AI代理长记忆的token消耗减半

RAG不是为这个设计的

为什么常见修复方案适得其反

四层级级结构

不确定性门控机制

与现有方案对比

何时使用xMemory

写入税的权衡

下一步：记忆治理

发表回复 取消回复

最新文章

文章分类

发表回复取消回复