AI 大模型 Nvidia新技术将LLM内存压缩20倍:不改动模型权重,延迟降低8倍 Nvidia研究团队推出了一种名为KV Cache Transform Coding (KVTC)的新技术,能 […] 03/22 • wanyujun • 243 阅读 阅读全文 →
AI AI 新闻 英伟达KVTC技术:大模型内存占用降低20倍,准确率损失不到1% 英伟达研究团队近日提出了一项突破性的大语言模型内存压缩技术KVTC(KV Cache Transform Co […] 03/21 • wanyujun • 269 阅读 阅读全文 →