[LG]《KVzap: Fast, Adaptive, and Faithful

[LG]《KVzap: Fast, Adaptive, and Faithful KV Cache Pruning》S Jegou, M Jeblick [NVIDIA] (2026) 长文本时代，KV Cache（键值缓存）正成为大模型推理中沉重且昂贵的负担。随着上下文长度突破十万甚至百万级别，显存占用与延迟问题让推理引擎不堪重负。本文提出 KVzap，通过一种快速、自适应且忠实原意的剪枝方案，在 Qwen3 和 Llama-3.1 等主流模型上实现了 2 到 4 倍的压缩，且几乎没有精度损失。大模型推理的瓶颈不在算力，而在显存。在 Transformer 架构中，每一个生成的 Token 都会产生一组 KV 对。当上下文极长时，KV Cache 会占据绝大部分 GPU 显存，导致吞吐量下降。虽然业界已有许多剪枝方法，但往往面临速度与精度的两难境地：要么剪枝过程太慢，要么在推理阶段无法使用，或者干脆严重破坏模型表现。KVzap 的核心逻辑在于：并非所有信息都值得被永久铭记。就像人类阅读时不会对每个字都倾注同等注意力，模型处理文本时，某些 Token 的 KV 对在后续生成中几乎不再被访问。KVzap 改进了前作 KVzip 的评分机制，引入了 KVzip+，通过归一化项更精准地衡量每个 Token 对残差流的贡献。创新的关键在于引入了代理模型。传统的精准评分需要复杂的计算，甚至要跑两次预填充，这在生产环境中不可接受。KVzap 的天才之处在于，它训练了一个极轻量级的线性层或 MLP（多层感知机），直接根据隐藏状态预测重要性得分。这意味着模型在处理 Token 的瞬间，就能预判它是否值得被留在缓存中。动态阈值：让模型学会取舍。不同于固定比例的粗暴剪枝，KVzap 采用基于阈值的自适应方案。对于信息密度高的复杂指令，它保留更多缓存；对于冗余的重复文本，它则大幅压缩。这种灵活性确保了模型在处理 RULER、LongBench 等长文本任务，甚至是 AIME25 这种高难度推理任务时，依然能保持满血战力。极致的轻量化，几乎零开销。KVzap 的代理模型规模极小，计算开销仅占单层 Transformer 的 0.02% 到 1.1%。在实际推理中，这些微小的计算量完全可以被 GPU 的空闲周期覆盖。它不仅适用于预填充阶段，更首次完美适配了长文生成的解码阶段。深度思考：效率是通往智能的必经之路。KVzap 的成功再次证明，LLM 的 KV Cache 中存在巨大的冗余。我们不需要无限的内存，而需要更聪明的遗忘。当模型学会从隐藏状态中自我识别重要性时，它就离真正的低功耗智能更近了一步。总结：KVzap 为长文本推理提供了一个平衡速度、成本与精度的最优解。它不仅在 KVpress 排行榜上刷新了纪录，更通过开源代码为开发者提供了即插即用的工具。项目地址：NVIDIA/kvpress模型集合：NVIDIA/KVzap论文详情：arxiv.org/abs/2601.07891

群发资讯网

[LG]《KVzap: Fast, Adaptive, and Faithful

热门分类