观澜Media

AI技术 · 深度资讯 · 前沿观察

IndexCache 是一种新的稀疏注意力优化器，可将长上下文 AI 模型的推理速度提高 1.82 倍

通过大型语言模型处理 200,000 个标记既昂贵..

作者

1 分

阅读时间

通过大型语言模型处理 200,000 个标记既昂贵又缓慢：上下文越长，成本螺旋升得越快。

ai 的研究人员构建了一种名为 IndexCache 的技术，该技术可减少稀疏注意力模型中高达 75% 的冗余计算，在该上下文长度下将首次标记时间提高 1。

82 倍，并将生成吞吐量提高 1。

该技术适用于使用 DeepSeek 稀疏注意力架构的模型，包括最新的 DeepSeek 和 GLM 系列。

它可以帮助企业为生产规模的长上下文模型提供更快的用户体验，这一功能已在 7440 亿参数的 GLM-5 模型的初步测试中得到验证。

其计算复杂度与序列长度呈二次方关系。

来源：VentureBeat

关于作者

See author's post

上一篇

下一篇

发表回复取消回复

关于我们

观澜Media

AI技术 · 深度资讯 · 前沿观察。专注科技、AI、互联网领域的深度报道与前沿资讯。

最新资讯

技术

从模型到代理：为 Responses API 配备计算机环境

2026-03-30
AI

设计人工智能代理以抵抗即时注入

2026-03-30
互联网

Rakuten 使用 Codex 解决问题的速度提高了一倍

2026-03-30
社会

为什么 Codex 安全性不包括 SAST 报告

2026-03-30
AI

为员工提供有关薪酬的见解

2026-03-30

关注我们

分类

标签

搜索归档

Access over the years of investigative journalism and breaking reports

你可能错过了

AI

Balyasny Asset Management 如何构建用于投资的人工智能研究引擎

观澜Media

2026-03-30
AI

Descript 如何实现大规模多语言视频配音

观澜Media

2026-03-30
社会

Codex 安全性：现在处于研究预览阶段

观澜Media

2026-03-30
AI

在 ChatGPT 中学习数学和科学的新方法

观澜Media

2026-03-30
社会

改善前沿法学硕士的教学层次

观澜Media

2026-03-30
AI

Wayfair 通过 OpenAI 提高目录准确性和支持速度

观澜Media

2026-03-30