AI 大模型 IndexCache:稀疏注意力优化让长上下文推理提速 1.82 倍 清华与 Z.ai 联合开发 IndexCache 技术,通过跨层索引复用让 DSA 模型推理提速 1.82 倍,GLM-5 已验证有效。 04/02 • wanyujun • 225 阅读 阅读全文 →