每日 Harness 开源 · Source
返回本期 · Back to 2026-06-04

论文 · Papers2026-06-04 · Thursday, June 4, 2026

KVarN: Variance-Normalized KV-Cache Quantization Mitigates Error Accumulation in Reasoning Tasks

arxiv.org原文 ↗

KVarN: Variance-Normalized KV-Cache Quantization Mitigates Error Accumulation in Reasoning Tasks
针对长 horizon reasoning decoding 中 KV-cache 量化误差随时间积累的问题,提出 calibration-free 的 KVarN。方法先做 Hadamard rotation,再对 K/V 矩阵双轴做 variance normalization,以修正 outlying token-scale errors。论文报告在 MATH500、AIME24 和 HumanEval 等 generative benchmark 上,2-bit precision 达到新的 KV-cache quantization SOTA,并提供 vLLM 实现。它提醒大家 prefill-like 评测不足以代表真实 autoregressive decoding 误差。
浏览

评论 · Comments