AI 大模型 Google TurboQuant 突破:AI 模型内存占用减少 6 倍,零精度损失 Google 研究团队发布 TurboQuant 压缩算法,可将大语言模型的内存占用减少至少 6 倍,且不损失任何精度。这一突破有望降低 AI 应用的硬件门槛。 04/01 • wanyujun • 286 阅读 阅读全文 →
AI 大模型 Nvidia新技术将LLM内存压缩20倍:不改动模型权重,延迟降低8倍 Nvidia研究团队推出了一种名为KV Cache Transform Coding (KVTC)的新技术,能 […] 03/22 • wanyujun • 287 阅读 阅读全文 →