开源 / 项目 · Projects2026-06-05 · Friday, June 5, 2026

KVarN

KVarN 是 vLLM 原生 KV-cache 量化后端，用 variance-normalized quantization 缓解 reasoning task 中的误差累积。项目索引称它可带来 3-5 倍 KV cache/context 扩展、吞吐高于 FP16，并在 MATH500、AIME24、HumanEval 等任务上维持 FP16 级准确率；如果实现足够稳，它会直接影响长上下文 serving 成本。

–浏览

KVarN

评论 · Comments