观澜Media

AI技术 · 深度资讯 · 前沿观察

IndexCache 是一种新的稀疏注意力优化器，可将长上下文 AI 模型的推理速度提高 1.82 倍

通过大型语言模型处理 200,000 个标记既昂贵..

作者

1 分

阅读时间

通过大型语言模型处理 200,000 个标记既昂贵又缓慢：上下文越长，成本螺旋升得越快。

ai 的研究人员构建了一种名为 IndexCache 的技术，该技术可减少稀疏注意力模型中高达 75% 的冗余计算，在该上下文长度下将首次标记时间提高 1。

82 倍，并将生成吞吐量提高 1。

该技术适用于使用 DeepSeek 稀疏注意力架构的模型，包括最新的 DeepSeek 和 GLM 系列。

它可以帮助企业为生产规模的长上下文模型提供更快的用户体验，这一功能已在 7440 亿参数的 GLM-5 模型的初步测试中得到验证。

其计算复杂度与序列长度呈二次方关系。

来源：VentureBeat

关于作者

See author's post

上一篇

下一篇

发表回复取消回复

关于我们

观澜Media

AI技术 · 深度资讯 · 前沿观察。专注科技、AI、互联网领域的深度报道与前沿资讯。

最新资讯

关注我们

分类

标签

搜索归档

Access over the years of investigative journalism and breaking reports

你可能错过了

AI

研究发现，生成式人工智能让不良行为者的欺诈变得轻而易举

观澜Media

2026-03-30
技术

Meta 的下一代智能眼镜听起来像是对佩戴处方镜片的人们的一种享受

观澜Media

2026-03-30
AI

YouTube 首席执行官公开谈论人工智能的问题，这听起来像是温馨的承诺

观澜Media

2026-03-30
AI

苹果正在开放 Siri 来选择人工智能模型，但只有一个对我来说有意义

观澜Media

2026-03-30
科技

新一代 Android 旗舰即将到来，这应该会让三星感到紧张

观澜Media

2026-03-30
AI

堆推理链全错了！林俊旸离职首曝：曾在阿里 Qwen 踩中一个“致命”技术误区

观澜Media

2026-03-30