随着大型语言模型 (LLM) 扩展其上下文窗口以处理大量文档和复杂的对话,它们遇到了残酷的硬件现实,称为“键值 (KV) 缓存瓶颈”。
模型处理的每个单词都必须作为高维向量存储在高速存储器中。
对于长格式任务,这种“数字备忘单”会迅速膨胀,吞噬推理过程中使用的图形处理单元 (GPU) 视频随机存取存储器 (VRAM) 系统,并随着时间的推移使模型性能迅速下降。
但不用担心,Google Research 就在这里:昨天,这家搜索巨头内部的部门发布了 TurboQuant 算法套件——这是一项纯软件突破,为极端 KV 缓存压缩提供了数学蓝图,使给定模型使用的 KV 内存量平均减少 6 倍,计算注意力日志性能提高 8 倍,这可以为在其模型上实施该算法的企业降低 50% 以上的成本。
这些基于理论的算法和相关研究论文现已免费公开提供,包括供企业使用,提供无需培训的解决方案,可以在不牺牲智能的情况下减小模型大小。
这一时机具有战略意义,恰逢即将在巴西里约热内卢举行的国际学习表征会议 (ICLR 2026) 和在摩洛哥丹吉尔举行的人工智能与统计年会 (AISTATS 2026) 上介绍这些发现。
来源:VentureBeat




