AI 大模型 DeepSeek V3.2-Exp:稀疏注意力让 API 价格腰斩,每百万 token 仅 2.8 美分 DeepSeek V3.2-Exp 采用稀疏注意力架构,API 价格降至每百万输入 token 2.8 美分,长上下文推理成本大幅降低。 04/02 • wanyujun • 275 阅读 阅读全文 →
AI 大模型 IndexCache:稀疏注意力优化让长上下文推理提速 1.82 倍 清华大学和 Z.ai 研究团队提出 IndexCache 技术,通过跨层索引复用减少 75% 冗余计算,在长上下文模型上实现 1.82 倍的首 Token 加速... 04/02 • wanyujun • 184 阅读 阅读全文 →