通过大型语言模型处理 200,000 个标记既昂贵又缓慢:上下文越长,成本螺旋升得越快。
ai 的研究人员构建了一种名为 IndexCache 的技术,该技术可减少稀疏注意力模型中高达 75% 的冗余计算,在该上下文长度下将首次标记时间提高 1。
82 倍,并将生成吞吐量提高 1。
该技术适用于使用 DeepSeek 稀疏注意力架构的模型,包括最新的 DeepSeek 和 GLM 系列。
它可以帮助企业为生产规模的长上下文模型提供更快的用户体验,这一功能已在 7440 亿参数的 GLM-5 模型的初步测试中得到验证。
其计算复杂度与序列长度呈二次方关系。
来源:VentureBeat






