xMemory新技术：AI代理token成本降低近一半

# xMemory新技术：AI代理token成本降低近一半

伦敦国王学院和艾伦图灵研究所的研究人员开发了xMemory，一种新技术可以将多会话AI代理的token使用量减少近一半，同时提高答案质量和长期推理能力。

## 传统RAG的局限

在企业LLLM应用中，一个关键期望是这些系统能够在长期、多会话交互中保持连贯性和个性化。标准做法是使用RAG（检索增强生成）：存储过去的对话和事件，基于嵌入相似性检索固定数量的顶级匹配，然后将它们连接到上下文窗口中生成答案。

然而，传统RAG存在根本性问题。AI代理的记忆是一个有界的连续对话流，存储的数据块高度相关且经常包含近似重复。当用户讨论”柑橘类水果”时，传统RAG可能将”我喜欢橙子”、”我喜欢橘子”等相似表述视为语义相近，导致检索大量相似片段而遗漏回答查询所需的类别事实。

## 四层记忆架构

xMemory通过将对话组织成可搜索的语义主题层次结构来解决这个问题。系统将原始对话流持续组织成一个结构化的四层层次：

1. **原始消息层**：对话的最基础记录
2. **片段层**：将连续消息总结为片段
3. **语义层**：从片段中提取可重用的独立事实
4. **主题层**：将相关语义分组为高层主题

当AI需要回忆信息时，系统自上而下搜索这个层次结构——从主题到语义，最后到原始片段。这避免了冗余，确保即使两个对话片段有相似嵌入，如果被分配到不同语义组件，也不会一起检索。

## 不确定性门控机制

xMemory使用一种称为”不确定性门控”的技术控制冗余。系统只在检测到添加更多细节能明显降低模型不确定性时，才会深入到片段或消息级别提取更细粒度的证据。

“语义相似性是候选生成信号，不确定性是决策信号，”研究人员解释，”相似性告诉你什么在附近，不确定性告诉你什么真正值得付费进入提示词预算。”

## 实验结果

在长期上下文任务的实验中，配备xMemory的开源和闭源模型都优于其他基准，使用的token显著减少，任务准确度提高。在某些任务上，token使用量从超过9000下降到约4700，减少近一半。

对于企业架构师来说，xMemory最适合需要在数周或数月的交互中保持连贯的系统，如客服代理和个性化辅导AI。如果只是与文件库（如政策手册或技术文档）对话，标准RAG仍然是更好的选择。

## 权衡考量

高效检索的代价是前期写入成本。xMemory需要执行多个辅助LLM调用来检测对话边界、总结片段、提取长期语义事实和综合主题。团队建议异步或微批处理这些繁重的重构工作，而不是同步阻塞用户查询。

xMemory代码已在GitHub上以MIT许可证公开发布，可用于商业用途。