观澜Media

AI技术 · 深度资讯 · 前沿观察

TurboQuant MoE 0.3.0

真正的 3 位 PolarQuant:物理位打包(..

真正的 3 位 PolarQuant:物理位打包(8×3 位为 3 个字节),实现基本 KV 存储的 5。

跨层 KV Delta(14 倍压缩):下一代后端,存储 3 位锚定层和中间层的 1 位有符号增量。

推测 KV 预填充:使用 1 位草图将预填充阶段加速 2-3 倍,以实现快速草稿 KV 生成和验证。

时间专家融合:基于 SVD 合并很少使用的专家,以回收 20-30% 的 MoE 重量 VRAM,且质量损失为零。

跨请求前缀共享:用于跨并发请求共享公共前缀的 KV 块的全局管理器。

加密 KV 水印:KV 等级的 HMAC 种子 LSB 水印,用于归因和审计。

来源:Dev.to

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注