每日 Harness 开源 · Source
返回本期 · Back to 2026-06-05

开源 / 项目 · Projects2026-06-05 · Friday, June 5, 2026

KVarN

github.com原文 ↗

上下文工程蒸馏与压缩系统·基础设施
KVarN
KVarN 是 vLLM 原生 KV-cache 量化后端,用 variance-normalized quantization 缓解 reasoning task 中的误差累积。项目索引称它可带来 3-5 倍 KV cache/context 扩展、吞吐高于 FP16,并在 MATH500、AIME24、HumanEval 等任务上维持 FP16 级准确率;如果实现足够稳,它会直接影响长上下文 serving 成本。
浏览

评论 · Comments