返回本期 · Back to 2026-06-05 开源 / 项目 · Projects2026-06-05 · Friday, June 5, 2026 KVarN github.com原文 ↗ 上下文工程蒸馏与压缩系统·基础设施 KVarN 是 vLLM 原生 KV-cache 量化后端,用 variance-normalized quantization 缓解 reasoning task 中的误差累积。项目索引称它可带来 3-5 倍 KV cache/context 扩展、吞吐高于 FP16,并在 MATH500、AIME24、HumanEval 等任务上维持 FP16 级准确率;如果实现足够稳,它会直接影响长上下文 serving 成本。 –浏览 –点赞 复制链接 评论 · Comments
评论 · Comments