当企业尝试将标准RAG管道用于长期、多会话LLM代理部署时,它们会崩溃。随着对持久AI助手需求的增长,这一关键限制变得日益突出。

伦敦国王学院和艾伦图灵研究所研究人员开发的xMemory技术解决了这个问题,它将对话组织成可搜索的语义主题层次结构。实验表明,xMemory在降低推理成本的同时提高了各种LLM的答案质量和长期推理能力。与现有系统相比,它将每查询的token使用量从9000多个降至约4700个。

为什么RAG不适合AI代理

在许多企业LLM应用中,一个关键期望是这些系统在长期、多会话交互中保持连贯性和个性化。为支持这种长期推理,常见方法是使用标准RAG:存储过去的对话和事件,基于嵌入相似性检索固定数量的顶级匹配,然后将它们连接到上下文窗口生成答案。

然而,传统RAG是为大型数据库构建的,检索的文档高度多样化,主要挑战是过滤掉完全不相关的信息。AI代理的记忆则是有界的连续对话流,存储的数据块高度相关且经常包含近似重复。

考虑一个简单的例子:用户说过”我喜欢橙子”、”我喜欢柑橘”,以及关于什么是柑橘类水果的其他对话。传统RAG可能将所有这些都视为语义相近,不断检索类似的”柑橘类”片段。论文合著者林贵解释:”如果检索坍缩到嵌入空间中最密集的簇,代理可能获得许多关于偏好的高度相似段落,却错过了回答实际问题所需的类别事实。”

四层层次结构设计

研究人员开发了一种结合结构化内存管理和自适应自上而下搜索策略的框架。xMemory持续将原始对话流组织成结构化的四层层次结构。

最底层是原始消息,首先被总结为称为”片段”的连续块。从这些片段中,系统提取可重用的事实作为语义,将核心长期知识与重复的聊天日志解耦。最后,相关的语义被组合成高级主题,使其易于搜索。

当收到提示时,xMemory在这个层次结构上执行自上而下的检索。它从主题和语义级别开始,选择多样化、紧凑的相关事实集。这对用户查询经常需要跨多个主题收集描述或链接连接事实进行复杂多跳推理的实际应用至关重要。

一旦获得事实的高级骨架,系统通过”不确定性门控”控制冗余。只有当特定细节确实减少模型的不确定性时,它才会深入到片段或消息级别提取更细的原始证据。

论文合著者总结道:”语义相似性是候选生成信号;不确定性是决策信号。相似性告诉你什么在附近,不确定性告诉你在提示预算中实际值得为什么付费。”系统在检测到添加更多细节不再有助于回答问题时停止扩展。

现有替代方案的局限

现有代理内存系统通常分为两类:扁平设计和结构化设计,都存在根本局限。MemGPT等扁平方法记录原始对话或最少处理痕迹,捕获了对话但积累大量冗余,随着历史增长检索成本增加。A-MEM和MemoryOS等结构化系统试图通过将记忆组织成层次或图来解决这个问题,但它们仍依赖原始或最少处理的文本作为主要检索单元,经常拉入臃肿的上下文。

xMemory通过优化的内存构建方案、层次化检索和动态重组解决了这些限制。

何时使用xMemory

对于企业架构师,知道何时采用这种架构而非标准RAG至关重要。论文合著者指出:”当系统需要在数周或数月的交互中保持连贯时,xMemory最具吸引力。”

客服代理是理想用例,因为它们必须记住稳定的用户偏好、过去事件和账户特定上下文,而不重复拉取近似重复的支持工单。个性化辅导是另一个理想场景,需要AI将持久用户特征与日常细节分离。

相反,如果企业构建与文件仓库(如政策手册或技术文档)对话的AI,”更简单的RAG堆栈仍是更好的工程选择”。在这些静态、以文档为中心的场景中,语料库足够多样化,标准最近邻检索完全有效。

写入成本值得付出

xMemory消除了与LLM最终答案生成相关的延迟瓶颈。在标准RAG系统中,LLM被迫阅读和处理充满冗余对话的臃肿上下文窗口。因为xMemory精确的自上而下检索构建了更小、高度针对性的上下文窗口,阅读器LLM花在分析提示和生成最终输出的计算时间大大减少。

然而,这种高效检索有前期成本。对于企业部署,xMemory的代价是用巨大的写入税换取读取税的减少。虽然最终使回答用户查询更快更便宜,但维护其复杂架构需要大量后台处理。

与廉价地将原始文本嵌入转储到数据库的标准RAG管道不同,xMemory必须执行多个辅助LLM调用来检测对话边界、总结片段、提取长期语义事实和综合总体主题。开发团队可以异步或以微批方式执行这种繁重的重组,而非同步阻塞用户查询。

开源可用

xMemory代码已在GitHub上以MIT许可公开发布,可用于商业用途。对于希望在LangChain等现有编排工具中实现这一技术的开发者,建议首先关注核心创新:”首先要构建的不是更高级的检索器提示。而是内存分解层。如果只能做好一件事,那就是索引和分解逻辑。”

随着AI代理在更长的时间范围内协作,检索不会是最后的瓶颈。”检索是瓶颈,但一旦检索改进,这些系统很快就会遇到生命周期管理和内存治理作为下一个瓶颈。”如何处理数据衰减、用户隐私和维护跨多个代理的共享记忆,正是”我预期下一波工作将发生的地方。”