观澜Media

AI技术 · 深度资讯 · 前沿观察

IndexCache 是一种新的稀疏注意力优化器,可将长上下文 AI 模型的推理速度提高 1.82 倍

通过大型语言模型处理 200,000 个标记既昂贵..

通过大型语言模型处理 200,000 个标记既昂贵又缓慢:上下文越长,成本螺旋升得越快。

ai 的研究人员构建了一种名为 IndexCache 的技术,该技术可减少稀疏注意力模型中高达 75% 的冗余计算,在该上下文长度下将首次标记时间提高 1。

82 倍,并将生成吞吐量提高 1。

该技术适用于使用 DeepSeek 稀疏注意力架构的模型,包括最新的 DeepSeek 和 GLM 系列。

它可以帮助企业为生产规模的长上下文模型提供更快的用户体验,这一功能已在 7440 亿参数的 GLM-5 模型的初步测试中得到验证。

其计算复杂度与序列长度呈二次方关系。

来源:VentureBeat

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关于我们

观澜Media

AI技术 · 深度资讯 · 前沿观察。专注科技、AI、互联网领域的深度报道与前沿资讯。

搜索归档

Access over the years of investigative journalism and breaking reports