标签： IndexCache

大模型

IndexCache：稀疏注意力优化让长上下文推理提速 1.82 倍

清华与 Z.ai 联合开发 IndexCache 技术，通过跨层索引复用让 DSA 模型推理提速 1.82 倍，GLM-5 已验证有效。

04/02 • wanyujun • 494 阅读

大模型

清华大学和 Z.ai 研究团队提出 IndexCache 技术，通过跨层索引复用减少 75% 冗余计算，在长上下文模型上实现 1.82 倍的首 Token 加速...

04/02 • wanyujun • 231 阅读