AI 大模型 Nvidia新技术将LLM内存压缩20倍:不改动模型权重,延迟降低8倍 Nvidia研究团队推出了一种名为KV Cache Transform Coding (KVTC)的新技术,能 […] 03/22 • wanyujun • 251 阅读 阅读全文 →