KV Cache 压缩 50 倍不掉精度：MIT 的 Attention Matching 做到了

发表于 2026/03/08

作者

5 分钟阅读

LLM 推理的内存瓶颈，搞过部署的人都知道有多痛。

上下文越长，KV Cache 越大，显存占用直线上升。处理一份长合同、跑一个多轮对话的 coding agent、或者做 RAG 召回后的长文本理解 —— KV Cache 动辄吃掉几个 GB。这不是理论问题，是每天都在烧钱的生产问题。

MIT 最近放出了一篇论文 Attention Matching，把 KV Cache 压缩到原来的 1/50，精度几乎不掉。这个数字值得认真看一下。

为什么 KV Cache 是瓶颈

Transformer 生成 token 是逐个来的。为了不每次都重新算整段上下文，模型会把已处理 token 的 key-value 对缓存起来，这就是 KV Cache。

问题在于它随上下文长度线性增长。论文合著者 Adam Zweiger 说得直白：「KV Cache 内存是超长上下文服务的最大瓶颈，它限制并发、逼你用更小的 batch、或者做更激进的 offloading。」

现有方案各有各的不行：

MIT 团队的洞察很精准：要让压缩后的 KV Cache 和原始的「行为一致」，关键是保持两个数学属性 ——

如果压缩后的小规模 KV 对能在这两个维度上匹配原始的大规模 KV 对，那模型就「感知不到」压缩发生了。

关键在于，他们用纯数学推导绕过了梯度优化，不需要反向传播，不需要 GPU 训练。这让整个压缩过程快了几个数量级 —— 从小时级降到可以实时执行。

50 倍压缩意味着什么？

这不是又一个「在 benchmark 上好看」的学术工作。KV Cache 的内存开销是 LLM 服务化最实际的成本项之一。谁能压下来，谁的推理成本就有结构性优势。

论文的结果很亮眼，但工程落地还有几个关注点：

但方向是对的。KV Cache 压缩是 LLM 推理优化的下一个主战场，Attention Matching 给出了一个漂亮的理论框架。

LLM 的竞争正在从「谁的模型更大」转向「谁的推理更高效」。训练成本是一次性的，推理成本是持续的。50 倍的 KV Cache 压缩，如果能稳定落地，对整个行业的成本结构都会产生影响。

如果你也在关注 AI 模型的实际使用体验和成本，推荐试试 OfoxAI（ofox.ai）— 一个账号接入 Claude、GPT、Gemini 等主流模型，不同任务选不同模型，切换零成本。

参考：

AI, Dev

本文由作者按照 CC BY 4.0 进行授权