真正的 3 位 PolarQuant:物理位打包(8×3 位为 3 个字节),实现基本 KV 存储的 5。
跨层 KV Delta(14 倍压缩):下一代后端,存储 3 位锚定层和中间层的 1 位有符号增量。
推测 KV 预填充:使用 1 位草图将预填充阶段加速 2-3 倍,以实现快速草稿 KV 生成和验证。
时间专家融合:基于 SVD 合并很少使用的专家,以回收 20-30% 的 MoE 重量 VRAM,且质量损失为零。
跨请求前缀共享:用于跨并发请求共享公共前缀的 KV 块的全局管理器。
加密 KV 水印:KV 等级的 HMAC 种子 LSB 水印,用于归因和审计。
来源:Dev.to










