# xMemory新技术:AI代理token成本降低近一半

伦敦国王学院和艾伦图灵研究所的研究人员开发了xMemory,一种新技术可以将多会话AI代理的token使用量减少近一半,同时提高答案质量和长期推理能力。

## 传统RAG的局限

在企业LLLM应用中,一个关键期望是这些系统能够在长期、多会话交互中保持连贯性和个性化。标准做法是使用RAG(检索增强生成):存储过去的对话和事件,基于嵌入相似性检索固定数量的顶级匹配,然后将它们连接到上下文窗口中生成答案。

然而,传统RAG存在根本性问题。AI代理的记忆是一个有界的连续对话流,存储的数据块高度相关且经常包含近似重复。当用户讨论”柑橘类水果”时,传统RAG可能将”我喜欢橙子”、”我喜欢橘子”等相似表述视为语义相近,导致检索大量相似片段而遗漏回答查询所需的类别事实。

## 四层记忆架构

xMemory通过将对话组织成可搜索的语义主题层次结构来解决这个问题。系统将原始对话流持续组织成一个结构化的四层层次:

1. **原始消息层**:对话的最基础记录
2. **片段层**:将连续消息总结为片段
3. **语义层**:从片段中提取可重用的独立事实
4. **主题层**:将相关语义分组为高层主题

当AI需要回忆信息时,系统自上而下搜索这个层次结构——从主题到语义,最后到原始片段。这避免了冗余,确保即使两个对话片段有相似嵌入,如果被分配到不同语义组件,也不会一起检索。

## 不确定性门控机制

xMemory使用一种称为”不确定性门控”的技术控制冗余。系统只在检测到添加更多细节能明显降低模型不确定性时,才会深入到片段或消息级别提取更细粒度的证据。

“语义相似性是候选生成信号,不确定性是决策信号,”研究人员解释,”相似性告诉你什么在附近,不确定性告诉你什么真正值得付费进入提示词预算。”

## 实验结果

在长期上下文任务的实验中,配备xMemory的开源和闭源模型都优于其他基准,使用的token显著减少,任务准确度提高。在某些任务上,token使用量从超过9000下降到约4700,减少近一半。

对于企业架构师来说,xMemory最适合需要在数周或数月的交互中保持连贯的系统,如客服代理和个性化辅导AI。如果只是与文件库(如政策手册或技术文档)对话,标准RAG仍然是更好的选择。

## 权衡考量

高效检索的代价是前期写入成本。xMemory需要执行多个辅助LLM调用来检测对话边界、总结片段、提取长期语义事实和综合主题。团队建议异步或微批处理这些繁重的重构工作,而不是同步阻塞用户查询。

xMemory代码已在GitHub上以MIT许可证公开发布,可用于商业用途。