3.2 上下文工程Context Engineering

本主题共 80 条 · 最早 2026-05-29 · 最新 2026-07-25

视图 · View

2026 年 7 月37

Why Software Factories Fail
HumanLayer 认为“软件工厂”失败的根因不是 Agent 数量不足，而是缺少高质量上下文、明确验收和持续反馈闭环。并行编排会放大模糊需求与错误假设，产生更多代码却不一定提高可合并成果。文章把瓶颈从 token 和执行框架转移到规范、评审与环境反馈，反驳了单靠扩大自动化流水线即可获得可靠软件产出的设想。
Blog2026-07-25github.com原文 ↗
–
State Compression in Two-Agent LLM Relays
这项工作研究两段式 agent 中，第一个模型把长上下文压成中间状态后，数值、类别和逻辑约束会丢掉多少。作者系统改变摘要预算与约束密度，发现压缩并非均匀损失：看似次要的限定词和否定条件更容易消失，且后续模型通常无法察觉；结论是 relay 设计需要显式的约束槽位，而不能只依赖自由文本摘要。
Paper2026-07-24arxiv.org原文 ↗
–
Prompt Caching in Agents
文章从实际 agent 请求结构解释 prompt cache：只有稳定前缀、相同模型参数和满足供应商阈值的上下文才能命中，频繁改写 system prompt 或在前部插入动态状态都会破坏复用。作者建议把工具定义和长期指令放前面，把时间、轨迹等易变内容后置；这是一篇把缓存命中率与上下文工程直接连接起来的性能分析。
Blog2026-07-24earendil.com原文 ↗
–
yvgude/lean-ctx
lean-ctx 用本地 Rust 进程管理代理上下文、记忆、访问控制和持久化记录，对外提供统一接口。它把上下文选择从单次 prompt 拼装提升为独立服务，可在多个 agent 间复用并记录读取历史。轻量本地架构有利于隐私和低延迟，但策略质量取决于压缩、召回与权限规则的组合。
Trending2026-07-23github.com原文 ↗
–
rtk-ai/rtk
RTK 是位于 shell 命令与 LLM 之间的 Rust CLI 代理，先过滤、归并和压缩输出，再送入模型上下文。它针对测试日志、构建输出和版本控制信息中的重复噪声，保留错误与关键差异。项目的收益可直接体现为 token 与注意力预算下降，但过滤规则必须避免删除诊断所需的上下文。
Trending2026-07-23github.com原文 ↗
–
Is Progressive Disclosure All You Need for Long-Context Agents?
论文比较三种长文档供给方式：一次性塞入完整上下文、独立检索器筛选，以及让代理按目录逐步打开材料。结果显示 progressive disclosure 在不少任务上接近完整上下文，同时显著减少 token，但在需要跨文档全局整合时会受早期阅读决策拖累。它给出的不是单一赢家，而是提示“让代理自己找材料”同样需要评估搜索成本和遗漏风险。
Paper2026-07-23arxiv.org原文 ↗
–
Your Agentic Workflow’s Cache Keepalive Costs 8x Too Much
文章把代理框架常见的“定时打一条小请求保持 KV cache”拿到三家 API 上实测，结论是固定周期保活可能比按实际驱逐窗口调度贵约八倍。原因不只是 token 单价，还包括缓存写入、读取折扣、供应商隐式驱逐和任务间隔分布。工程上应把保活视为带概率的经济决策：只有下一次调用足够近、前缀足够大且命中折扣高时才续命，而不是把五分钟定时器写死在所有工作流里。
Blog2026-07-22blog.mempko.com原文 ↗
–
Provena: Open-Source Library for AI Agent Context Governance
Provena 治理的是 agent “知道什么”：RAG 检索、工具输出、agent message、memory recall、MCP resource 进入 context window 前都可以被记录来源、hash 和时效。README 展示的最小用法是给产生 context 的函数加 `@trail.track`，每次调用写入 SHA-256 content hash、provenanc…
Project2026-07-21github.com原文 ↗
–
Canner/WrenAI
WrenAI 是面向 AI agents 的 open-source GenBI 项目，用可信 context layer 支撑 text-to-SQL、dashboard、charts 和 SQL 生成。仓库描述覆盖 BigQuery、Snowflake、PostgreSQL、ClickHouse、Redshift、Databricks 等 20+ 数据源。它的重点不只是“自然语言问数据库”，而…
Trending2026-07-21github.com原文 ↗
–
Cache-Aware Prompt Compression:A Two-Tier Cost Model for LLM API Caching
论文指出生产 LLM 成本同时受 prompt caching 与 prompt compression 影响，而 query-aware compression 会机械破坏 prefix-strict cache。作者在 Anthropic Sonnet 4.6 上测到两层 cache 结构：约 3,500 tokens 是阈值，低于阈值的 30-call session hit rate 停在…
Paper2026-07-21arxiv.org原文 ↗
–
OpenAI reduces Codex Model Context Size from 372k to 272k
OpenAI Codex 仓库 PR 文件显示模型上下文大小配置从 372k 调整到 272k。digest 把它放进行业新闻是合理的：这是可见的产品运行配置变化，而不是 README 功能点。正文只按文件差异本身解读，它说明某个配置路径里的可用上下文预算收窄了 100k tokens。背后的容量、成本或质量原因没有在条目中给出，因而不应把这条写成策略结论。
News2026-07-20github.com原文 ↗
–
I burned all my tokens researching how to save tokens
Quesma 的文章介绍一个减少研究 token 消耗的自定义 deep research pipeline。标题里的反讽很直接：作者先在研究阶段花掉大量 token，再通过管线化抓取、筛选、压缩和上下文复用降低后续成本。技术重点是把“让模型读完所有材料”拆成分阶段检索、摘要、过滤和预算控制，而不是把长上下文当成唯一解决方案。它对 LLM 工程的启发在于，研究质量和 token 成本之间可以靠流程…
Blog2026-07-20quesma.com原文 ↗
–
What Context Does a Coding Agent Actually Need to Act?
论文把 coding agent 的上下文需求分成定位工作点与执行编辑两个阶段，并对 SWE-bench Verified 的 96 个任务做人工审计。一个关键数字是 49% 的任务需要语义相关但词面不相似的外部信息；在约 10K token oracle 编辑上下文下，Claude Sonnet 4 的理论解决率上限是 70.2%，而现有检索方法仍低 43.8 个百分点。这说明“长上下文”并不等…
Paper2026-07-15arxiv.org原文 ↗
–
MemDecay: Region-Aware KV Cache Eviction for Efficient LLM Agent Inference
MemDecay 提出 region-aware KV cache eviction，按上下文区域管理长轨迹推理中的缓存保留。它区分系统指令、用户目标、工具输出、历史推理和检索材料等不同区域，避免把所有 token 当作同等可驱逐对象。这个设计贴近 agent 推理的真实结构：有些早期约束很短却关键，有些近期工具日志很长却可能只需短期保留。
Paper2026-07-15arxiv.org原文 ↗
–
Context Warp Drive
Context Warp Drive 做确定性 context compaction，明确不调用 LLM 生成摘要。它用规则化方式裁剪、保留和重排 agent 上下文，以降低 token 占用并避免总结模型引入遗漏或改写。这个项目的亮点是可解释性：压缩结果来自确定规则，调试时不必再追一个摘要模型是否说错。
Project2026-07-15github.com原文 ↗
–
Agentic Context Learning with Self-Discovered Specification
这篇论文讨论 inference-time context learning 中的一个更难问题：模型要先从上下文里发现隐含规格，再把规格应用到新任务。方法围绕 self-discovered specification，让 agent 抽取格式约束、操作规则和任务边界，再进入执行阶段。它的看点在于把 few-shot/context learning 从“看例子模仿”推进到“从上下文重建任务规范”…
Paper2026-07-15arxiv.org原文 ↗
–
Wisp
Wisp 是私有桌面 AI overlay，可以从当前应用抓取文本、截图等上下文，并支持 MCP。它把桌面正在发生的状态直接提供给助手，而不是要求用户手动复制窗口内容。这个项目值得观察的地方在于端侧上下文获取、隐私边界和工具协议如何组合成日常桌面助手。
Project2026-07-13github.com原文 ↗
–
Claude Code sends 33k tokens before reading the prompt; OpenCode sends 7k
Systima 对 Claude Code 和 OpenCode 的会话启动 token overhead 做日志级对比。标题给出的关键数字是：Claude Code 在读取用户 prompt 前发送约 33k tokens，OpenCode 约 7k。文章把 agent 成本从“每次回答用了多少 token”拆到启动上下文阶段，这对延迟、费用和隐私评估都很具体。
Blog2026-07-13systima.ai原文 ↗
–
VoltAgent/awesome-design-md
awesome-design-md 收集流行产品设计系统的 DESIGN.md，供 coding agent 生成一致 UI 时参考。它把品牌、组件、布局和交互约束转成 agent 易读的 Markdown，而不是只给人类设计师看 Figma。这个仓库的实际意义在于提升 AI 生成前端的约束质量，减少“能运行但不像产品”的界面。
Trending2026-07-11github.com原文 ↗
–
Context Graphs for Proactive Enterprise Agents
论文提出 context graph，让企业 agent 在用户发问前就能基于工作上下文发现可行动信息。图中显式连接用户、任务、文档、工作流和权限，并把 provenance、recency、permission、actionability 作为核心元数据。它值得放进 agent 基础设施讨论，因为主动性不再只是“多轮聊天更积极”，而是被建模成可审计的上下文图更新与触发。
Paper2026-07-11arxiv.org原文 ↗
–
Onboard-CLI, a LLM powered and AST-based tool to visualize codebase
Onboard-CLI 是一个 Go 写的本地 CLI 加 React Flow 可视化器，用 Tree-sitter 做 AST slicing，把大型代码库映射成结构拓扑图。README 列出 5+ 内置解析器（Go、TypeScript、JavaScript、Python、Java），`onboard map` 会启动本地 canvas，`onboard drift` 可按 `archite…
Project2026-07-09github.com原文 ↗
–
FreqDepthKV: Frequency-Guided Depth Sharing for Robust KV Cache Compression in Long-Context LLM Inference
FreqDepthKV 针对长上下文推理中的 KV cache 内存与带宽瓶颈，把相邻层 KV states 分解成共享低频 depth components 和稀疏高频 residuals。它用轻量 online probe 判断 attention heads 应使用 shared-depth、residual-depth 还是 exact cache mode，从而不用 retraining…
Paper2026-07-09arxiv.org原文 ↗
–
Backlog - tasks and contexts manager for AI coding agents
Backlog 是 local-first task/context manager，把 coding agent 的任务、计划、文档、记忆和活动日志放进同一个 SQLite DB，而不是留在超长 chat thread 里。每次写入都带 actor attribution，比如 `human:alice` 或 `ai:claude-code`；CLI、web UI、skills 和 MCP 都读…
Project2026-07-09github.com原文 ↗
–
Akashic: A Low-Overhead LLM Inference Service with MemAttention
Akashic 处理的是长会话 agent 反复回放全部历史带来的 prefill、上下文长度和证据淹没问题。它用 MemAttention 把上下文组织成 bounded chunks，并显式建模 chunk 之间的语义关系；系统层还做 hardware-software co-designed memory placement，把可能一起取回的 chunk 放近，减少检索碎片和 I/O。摘要报…
Paper2026-07-09arxiv.org原文 ↗
–
Shadow Web
Shadow Web 为 LLM agent 压缩网页 token 表示，把网页转换成更适合模型消费的紧凑内容。它试图剔除导航、重复 DOM 文本和页面噪声，同时保留 agent 浏览需要的主要信息。这个工具的技术焦点是网页理解成本：长网页不是不能读，而是上下文预算和相关性管理会迅速变差。
Project2026-07-08github.com原文 ↗
–
PEEK: Predictive Queue-Informed KV Cache Management for LLM Serving
PEEK 针对 LLM serving 中 KV cache 的调度和淘汰，利用排队请求之间的前缀共享来预测缓存价值。它的关键思想是 eviction 不只看当前 cache，还看队列里即将到来的请求是否能复用这些前缀。对高并发推理服务来说，这把 KV cache 从被动显存占用变成了可预测的队列资源。
Paper2026-07-08arxiv.org原文 ↗
–
From Tensor Buffer to Distributed Memory Hierarchy: A Survey of KV Cache Management for LLM Serving
这篇综述将 KV cache 管理按 locality、lifetime、ownership 和 substrate 分类，从单卡 tensor buffer 扩展到分布式内存层级。它覆盖显存、主存、远端存储和跨请求共享等设计面，说明 KV cache 已经不是简单优化项，而是 LLM serving 系统结构的一部分。适合用来梳理近期 PagedAttention、prefix cache、of…
Paper2026-07-08arxiv.org原文 ↗
–
CoACT: Action-Preserving Observation Compression for Coding Agents
CoACT 处理 coding agent 的上下文膨胀问题，但目标不是做漂亮摘要，而是压缩后仍保持原本会采取的行动。论文把代码、终端输出和环境反馈中的信息按“是否改变下一步动作”来筛，避免把关键报错或文件状态压没。它值得看的是评估目标发生了变化：压缩质量由后续行动保持程度衡量，而不是摘要相似度。
Paper2026-07-08arxiv.org原文 ↗
–
Pruning RAG context down to what the answer actually needs
Kapa.ai 在 RAG pipeline 的 reranker 与 generator 之间加入一个小模型 pruner，让它同时看问题和所有候选 chunk，再按 1-5 等级判断哪些 chunk 真会参与答案。生产回放显示它丢掉约 68% context、保留约 96% recall，并在扣除自身调用成本后降低约 34% 查询费用。文章还指出 rerank score 不是跨 query…
Blog2026-07-07kapa.ai原文 ↗
–
OthmanAdi/planning-with-files
planning-with-files 把长任务的计划、发现和进度写入三个 markdown 文件：`task_plan.md`、`findings.md`、`progress.md`。README 的核心比喻是 context window 是易失 RAM，filesystem 是持久 disk，所以重要信息必须落盘。它支持 Claude Code、Cursor、Codex、Gemini CLI…
Trending2026-07-07github.com原文 ↗
–
sopaco/deepwiki-rs
deepwiki-rs 用 Rust 把代码库生成结构化技术文档和 agent 上下文。它面向大型 repo 缺少稳定概览的问题，让开发者或 agent 不必每次从零 grep 代码结构。Rust 本地实现强调性能和可运行性，适合把文档生成纳入 CI 或本地分析流程。
Trending2026-07-04github.com原文 ↗
–
pxpipe
pxpipe 把代码转成图像，再让模型通过 OCR 读取，目标是在 Claude/Fable 等工作流里降低文本上下文成本。这个项目的具体实验点是把代码上下文从 token 序列换成视觉载体，绕开一部分 BPE 计费和窗口压力。它不是通用生产方案，但作为“上下文压缩可以跨模态”的探索很有技术味道。
Project2026-07-04github.com原文 ↗
–
ReContext: Recursive Evidence Replay as LLM Harness for Long-Context Reasoning
ReContext 提出 recursive evidence replay，用 harness 反复检查模型是否真正利用长上下文中已给出的证据。它关注的不是扩大 context window，而是追踪模型在长文档中是否回到关键证据并保持推理一致。这个问题在法律、审计、研究综述和复杂客服场景都很具体：答案看似合理并不等于证据链被正确使用。
Paper2026-07-04arxiv.org原文 ↗
–
Quicktok
Quicktok 是精确 BPE tokenizer，项目描述称比 tiktoken 更快。它瞄准的是 token 计数、截断、批量预处理和上下文预算估算这类底层路径，而这些路径在高吞吐 RAG 或日志处理系统里会被频繁调用。值得注意的是 tokenizer 性能经常被忽略，但它会直接影响服务端延迟和离线数据处理成本。
Project2026-07-04github.com原文 ↗
–
OpenWiki: CLI that writes and maintains agent documentation for your codebase
OpenWiki 是 LangChain 的 CLI，用来生成和维护 agent-readable codebase documentation。README 提供 `npm install -g openwiki`、`openwiki --init`、交互模式、prompt 模式和 `--update`；还建议把 GitHub Action 加到仓库里，每天自动开 PR 更新文档。它把文档维护和…
Project2026-07-03github.com原文 ↗
–
Opera CLI compact accessibility snapshots
这份白皮书围绕 browser agents 的 compact accessibility snapshot 展开，目标是压缩页面状态，同时保留 agent 操作所需的结构和 grounding。虽然 digest 没提供具体压缩率，但主题与 LUMOS、A11y-Compressor 同向：把 UI 观察从冗长 accessibility tree 或截图，转为更紧凑的语义表示。它值得放在 b…
Project2026-07-02github.com原文 ↗
–
ACE: Pluggable Adaptive Context Elasticizer across Agents
ACE 针对长轨迹 agent 的固定上下文窗口问题，反对把历史一次性截断或摘要成不可恢复状态。它维护 lossless message layer，同时保存每个历史 step 的 raw message 和 compressed abstraction；决策时的 orchestration layer 再按当前任务状态把每步选为 raw、abstract 或 drop。论文把 ACE 接入 Re…
Paper2026-07-02arxiv.org原文 ↗
–

2026 年 6 月40

Tokenmaxxing is dead, long live tokenmaxxing
这篇文章讨论 agentic 系统中的上下文、token 使用和系统设计。它的核心转向是：单纯追求更大上下文窗口已经不够，关键变成怎样组织短期上下文、长期记忆、检索、工具结果和压缩摘要。它值得看，是因为很多 agent 失败不是因为 token 不够，而是上下文里混入了过期事实、无关日志和不可验证中间状态；“tokenmaxxing”真正要解决的是信息治理，而非窗口长度崇拜。
Blog2026-06-2912gramsofcarbon.com原文 ↗
–
gglucass/headroom-desktop
gglucass/headroom-desktop 是一个 macOS menu bar app，目标是减少 Claude Code 和 Codex 的上下文开销。README 声称通过 local-first optimization pipeline 可把 token costs 降低约 50%，方法是可逆压缩 tool output、logs 和 boilerplate。它抓住了 codin…
Trending2026-06-28github.com原文 ↗
–
risingwavelabs/risingwave
RisingWave 是 event streaming platform，面向需要实时上下文的 agentic AI 和应用。README 说它用单系统替代 Debezium + Kafka + Flink + serving DB，持续 ingest 数据库变更、event streams、webhooks 和历史数据，增量处理并低延迟 serve。它的趋势点在于实时数据栈被重新包装成 age…
Trending2026-06-27github.com原文 ↗
–
Instruction Bleed: Cross-Module Interference in Prompt-Composed Agentic Systems
论文定义 compositional behavioral leakage，解释为什么没有共享变量的 prompt 模块仍会因为同处一个上下文窗口而互相影响。实验在 Claude Sonnet 4.6 的 job-evaluation agent 上跑 144 trials，只有 content perturbation 产生可检测 paired effect，Cohen's d=0.63，且没有…
Paper2026-06-27arxiv.org原文 ↗
–
Information-Aware KV Cache Compression for Long Reasoning
InfoKV 不只看 attention weight，而是加入 token predictive uncertainty 与 layer-wise representation evolution，捕获对远期上下文更有影响的 token。论文提出 Forward Influence，指出 attention 选中的 token 主要影响近邻上下文，而高不确定性 token 对远距离未来上下文更关…
Paper2026-06-27arxiv.org原文 ↗
–
Context Recycling for Long-Horizon LLM Inference
ContextForge 通过 structured query generation、external memory retrieval 和 controlled synthesis 回收长对话中的任务相关上下文。论文使用 15-turn healthcare query benchmark，覆盖多轮推理、回指和 domain shifts；相同底层模型下，它减少 token 消耗并提升一致性，…
Paper2026-06-27arxiv.org原文 ↗
–
Self-Compacting Language Model Agents
论文处理长程 agent 轨迹里 chains of thought、工具调用和过期内容不断挤占上下文的问题，提出 SelfCompact 让压缩触发依据轨迹结构，而不是固定间隔或 token 阈值。它指出固定阈值会无视推理边界，可能在 mid-derivation 或 mid-search 阶段丢掉仍在使用的局部结果。这个方向值得看，是因为上下文压缩正在从“省 token 的后处理”变成 age…
Paper2026-06-24arxiv.org原文 ↗
–
Crespo
Crespo 用 Tree-sitter AST 解析仓库，抽取 imports、classes、functions、structs 和 enums，生成 compact XML blueprint 给 LLM。它支持 structure、summary、concat 三种模式，覆盖 10 种语言；README 的 benchmark 显示结构问答平均 2.75/3，structure mode…
Project2026-06-23github.com原文 ↗
–
UltraQuant: 4-bit KV Caching for Context-Heavy Agents
UltraQuant 关注的是长上下文、多轮代理负载中的 KV cache，而不是常见的权重量化问题。论文标题给出的关键设定是 4-bit KV caching，目标是在上下文很重的代理运行中降低缓存占用和推理成本。它值得放进今日重点，是因为代理系统的瓶颈越来越常出现在“保留多少历史状态”而不是“单次生成有多快”。
Paper2026-06-20arxiv.org原文 ↗
–
LedgerAgent: Structured State for Policy-Adherent Tool-Calling Agents
这篇把工具调用代理的运行状态从一段不断增长的上下文，改成显式 ledger：事实、约束、策略条件和任务进展都以结构化状态保存。它的贡献不在于增加一个新工具，而是把“代理当前相信什么、还受哪些规则约束”变成可读取、可更新、可审计的对象。对需要策略遵守的代理系统来说，这种设计给运行时治理和错误定位留下了比 prompt 约定更清晰的抓手。
Paper2026-06-20arxiv.org原文 ↗
–
alexzhang13/rlm
RLM 库把上下文和子调用放进 REPL，使模型可以写代码来分解长任务、调用子模型并处理近无限上下文。它支持本地和云端 sandbox，并包含训练 harness 与轨迹可视化。这个项目代表另一条长上下文路线：不把所有东西塞进窗口，而是让模型程序化地访问和递归处理信息。
Trending2026-06-19github.com原文 ↗
–
The Token Compression Illusion: Why I'm Skeptical of RTK
文章质疑递归或 token compression 方案把 token 数下降等同于保留了任务所需信息。digest 显示作者区分压缩上下文、摘要上下文和维持决策充分状态，这三者在 agent 长任务里不是同一个问题。它提醒读者看压缩方案时要问“哪些信息被保留用于下一步行动”，而不是只看上下文窗口占用。
Blog2026-06-19mroczek.dev原文 ↗
–
Understand Anything
Understand Anything 的目标是把 codebase、knowledge base 或 docs 转成 interactive knowledge graph，并支持 explore、search、ask questions。README 的口号 “Graphs that teach > graphs that impress” 很准确：图不是为了炫酷，而是为了帮助人和 Agent…
Trending2026-06-18github.com原文 ↗
–
LMCache
LMCache 是 LLM 推理侧的 KV cache management layer，目标是在请求之间、多进程和多节点环境里复用 cache，减少重复 prefill 成本。README 摘要强调 scalable LLM inference，并把近期更新集中在 agentic workload benchmark、multiprocess architecture 和 multi-node…
Trending2026-06-18github.com原文 ↗
–
TokenPilot: Cache-Efficient Context Management for LLM Agents
TokenPilot 解决长程 agent 会话中上下文累积与 prompt cache 断裂之间的冲突。它用 Ingestion-Aware Compaction 在全局稳定 prefix、过滤开放环境噪声，再用 Lifecycle-Aware Eviction 在局部按上下文片段生命周期批量卸载。实验在 PinchBench 和 Claw-Eval 上给出 isolated 模式 61%/56…
Paper2026-06-17arxiv.org原文 ↗
–
Ctx
ctx 根据当前任务推荐 skill、agent、MCP server 和 harness，减少 agent 上下文里无关工具描述。它维护 102,928-node LLM-wiki graph，包含 91,464 skills、467 agents、10,790 MCP servers、207 harnesses 和 2.9M graph edges，目标是每次只加载 10-15 个相关组件。配…
Project2026-06-17github.com原文 ↗
–
Don't trust large context windows
这篇文章提醒长上下文窗口并不等于可靠记忆。digest 提到检索、注意力和实际使用中的失效模式，核心意思是模型可能拥有很长输入上限，却仍错过关键约束或在长文中漂移。它值得读是因为很多 agent workflow 仍把“塞进上下文”当成设计，而不是把证据选择、摘要和校验做成显式步骤。
Blog2026-06-15garrit.xyz原文 ↗
–
google-labs-code/design.md
DESIGN.md 是一个给 coding agent 描述视觉身份和设计系统的格式规范。它把精确 design tokens 放在 YAML front matter，比如颜色、字体、字号、圆角、间距；再用 Markdown prose 解释设计意图和应用方式。README 的例子展示 agent 可以同时读到 `primary: #1A1C1E` 这样的机器值，以及“Architectural…
Trending2026-06-12github.com原文 ↗
–
SparDA: Sparse Decoupled Attention for Efficient Long-Context LLM Inference
SparDA 把稀疏注意力里两个长期问题放在一起：KV cache 随长度增长撑爆显存，sparse selection 本身仍可能保持 O(T^2) 并在长上下文里成为主成本。它在 Query、Key、Value 之外加入每层 Forecast 投影，预测下一层需要的 KV blocks，让 CPU-to-GPU prefetch 和当前层计算重叠；GQA 实现中每个 group 只用一个 Fo…
Paper2026-06-12arxiv.org原文 ↗
–
ReVision: Scaling Computer-Use Agents via Temporal Visual Redundancy Reduction
ReVision 针对 computer-use agent 的轨迹历史：连续 GUI screenshot 变化很小，但每张都被编码成大量视觉 token。方法训练一个 learned patch selector，对比连续截图的 patch representation，删除冗余 visual patches，同时保留多模态模型需要的空间结构。在 OSWorld、WebTailBench、Ag…
Paper2026-06-12arxiv.org原文 ↗
–
Llmbuffer
llmbuffer 是 Python conversation history buffer，核心是把消息顺序调整为可稳定命中 provider prompt cache 的结构：static system prompt、long-lived history、dynamic context、recent messages。RAG 结果、时间戳和当前工具调用等易变内容被放在末尾，避免破坏前缀缓存；l…
Project2026-06-12github.com原文 ↗
–
Lore
Lore 是 coding agent 的 LLM proxy，负责上下文、记忆和请求路由管理。它的工程位置在 agent 客户端和模型供应商之间，适合把上下文压缩、长期记忆、模型选择和成本策略集中处理，而不是让每个 IDE 插件或 CLI 各自实现一套。
Project2026-06-10withlore.ai原文 ↗
–
From Rigid to Dynamic
论文观察到长上下文推理中 attention heads 存在 Rigid Heads 和 Dynamic Heads 两种 entropy 行为，而且具体分布随上下文变化，不能离线固定。EntropyInfer 在 prefill 时按 head/segment 动态分配稀疏预算，decode 时用已生成 token 帮助选择保留哪些 KV cache；在 Llama、Qwen、openPang…
Paper2026-06-10arxiv.org原文 ↗
–
End-to-End Context Compression at Scale
论文重新评估 encoder-decoder 式上下文压缩，目标是降低长上下文推理中 KV cache 的内存压力。作者做 architecture search 后，持续预训练 0.6B encoder、4B decoder 的 LCLM 系列，每个 1:4、1:8、1:16 压缩比例都训练超过 350B tokens；结果在质量、压缩速度和峰值内存上改善 Pareto frontier。它也把…
Paper2026-06-10arxiv.org原文 ↗
–
Programmers will document for Claude, but not for each other
文章讨论开发者愿意为 Claude 写清楚上下文，却长期不给同事写同等质量文档的反差。digest 中的观察很尖锐：给 LLM 的 prompt、constraints 和 examples，其实就是团队文档缺口的可见化。它把“AI 需要上下文”反转成组织问题：如果这些信息能提升模型表现，也同样能降低人类协作成本。
Blog2026-06-08blog.plover.com原文 ↗
–
Context Sculpting
文章讨论如何塑造 LLM 上下文，而不是把所有材料一股脑塞进去。digest 的重点是选择、排序、压缩和边界设定会显著影响输出，这与 agent 长任务中的 memory、repo map 和 instruction hygiene 直接相关。它提供的不是某个 prompt 魔法词，而是把上下文当作可设计的信息结构。
Blog2026-06-08perceptiontheory.bearblog.dev原文 ↗
–
TokenMizer: Graph-Structured Session Memory for Long-Horizon LLM Context Management
TokenMizer 把长工作会话转成 typed knowledge graph，再序列化为 compact resume block。schema 有 14 类节点和 7 类边，三层 checkpoint 与 8 层压缩管线让 21 个 sessions 的 resume block 平均只有 78 tokens，约为 baseline 159-170 tokens 的一半。它更强调保留 de…
Paper2026-06-07arxiv.org原文 ↗
–
Dense Contexts Are Hard Contexts: Lexical Density Limits Effective Context in LLMs
论文指出长上下文失败不只取决于 token 长度和 needle 位置，还取决于上下文每单位长度引入多少不同信息。作者在 9B-685B open-weight LLM 上使用约 12k tokens、位置受控但密度递增的 needle 任务；高密度场景中近乎满分的模型会跌到 60% 以下。这个变量对真实系统很关键，因为压缩摘要、密集日志和表格化证据往往正是“短但难”的上下文。
Paper2026-06-07arxiv.org原文 ↗
–
Claude Git Sessions
Claude Git Sessions 把 Claude Code 会话存进 Git orphan branch，以便团队共享和恢复。orphan branch 的选择很有意思：会话历史不污染产品代码分支，却仍能使用 Git 的传输、审计和版本机制。这个做法把 agent conversation 从个人机器状态变成可协作资产。
Project2026-06-07github.com原文 ↗
–
Token Budgets: An Empirical Catalog of 63 LLM-Agent Budget-Overrun Incidents
这篇把 agent token 超支整理成 63 起经验事件，关注的是预算如何在多轮工具调用、重试和长上下文中被隐性消耗掉。它的工程点在于把缓解示例落到 affine-typed Rust：预算被视为一次性资源来传递和消费，而不是事后统计的账单字段。
Paper2026-06-05arxiv.org原文 ↗
–
KVarN
KVarN 是 vLLM 原生 KV-cache 量化后端，用 variance-normalized quantization 缓解 reasoning task 中的误差累积。项目索引称它可带来 3-5 倍 KV cache/context 扩展、吞吐高于 FP16，并在 MATH500、AIME24、HumanEval 等任务上维持 FP16 级准确率；如果实现足够稳，它会直接影响长上下文…
Project2026-06-05github.com原文 ↗
–
mksglu/context-mode
Context Mode 是 MCP server 和 CLI proxy，作为 AI coding assistants 与 context window 之间的 sandboxed execution/indexing layer。公开摘要称它拦截 Bash、WebFetch、Read 等 tool calls，在隔离 subprocess 中运行，把 raw output 索引进 SQLit…
Trending2026-06-04github.com原文 ↗
–
chopratejas/headroom
Headroom 压缩 agent 读取的 tool outputs、logs、files 和 RAG chunks，定位为 library、proxy、ASGI middleware、callback 和 MCP server。README 称典型上下文中 70-95% 是 boilerplate，项目目标是在进入 LLM 前压缩掉这些冗余，并支持 LangChain、LangGraph、Agn…
Trending2026-06-04github.com原文 ↗
–
Moxie Docs
Moxie Docs 为 GitHub repo 建立 living index，把源代码、测试、文档和历史整理成人可读文档与 agent 可读 MCP context。主页写明每次 merge 后会保持索引更新，提供 source-cited docs、repo conventions、doc gaps 和 verified commands；Starter 计划覆盖 3 个私有 repo、每…
Project2026-06-04moxiedocs.com原文 ↗
–
KVarN: Variance-Normalized KV-Cache Quantization Mitigates Error Accumulation in Reasoning Tasks
针对长 horizon reasoning decoding 中 KV-cache 量化误差随时间积累的问题，提出 calibration-free 的 KVarN。方法先做 Hadamard rotation，再对 K/V 矩阵双轴做 variance normalization，以修正 outlying token-scale errors。论文报告在 MATH500、AIME24 和 Hum…
Paper2026-06-04arxiv.org原文 ↗
–
Carto
Carto 为 AI coding agents 生成代码库 domain map、blast radius 和 MCP 工具形式的结构化上下文。digest 对它的定位很明确：帮助 agent 在改代码前理解模块、影响范围和业务域边界。它不是通用检索器，而是把 codebase map 变成可供 agent 查询的操作对象。对于大型 repo，blast radius 信息能帮助控制改动范围和测…
Project2026-06-04github.com原文 ↗
–
LongAttnComp: Cross-Family Context Compression for Long-Context Reasoning
论文研究跨模型家族的长上下文压缩，用于减少 100k+ token 输入的 prefill 成本。
Paper2026-06-03arxiv.org原文 ↗
–
Leyline: KV Cache Directives for Agentic Inference
Leyline 针对 agentic inference 提出 KV cache directives，用来处理工具调用失败、输出删除、轨迹分叉、回滚和重试等非线性对话操作。传统 KV cache 默认上下文按前缀追加，但 agent 工作流经常需要废弃 stale observation 或从中间节点另开分支。值得看的是，它把推理系统优化从单条聊天流吞吐扩展到 agent 状态编辑和分支探索。
Paper2026-06-03arxiv.org原文 ↗
–
Stria
Stria 是面向 LLM agents 的 grammar-free structural codebase indexer 和 MCP server。它不用 tree-sitter 或语言 parser，而用 phrase extraction 生成结构索引；README 称标准仓库约 0.16 秒 build、sub-ms queries，3.1GB Linux kernel 72,000…
Project2026-06-02github.com原文 ↗
–
Learning Agent-Compatible Context Management for Long-Horizon Tasks
AdaCoM 训练一个外部 LLM 管理冻结 agent 的上下文，用可学习的修改动作在保留约束、进展和证据的同时删除过期内容。论文在 web search 和 deep research benchmarks 上测试，提出 Fidelity-Reliability Trade-off：强 agent 需要更高保真上下文，弱 agent 反而需要更激进压缩。它的工程意义是上下文管理可作为可迁移模块…
Paper2026-06-02始 2026-06-01arxiv.org原文 ↗
–

2026 年 5 月3

Notation Matters: A Benchmark Study of Token-Optimized Formats in Agentic AI Systems
它把“格式选择”从工程品味拉回到可测量变量：agent 系统中每一步都复制状态、工具结果和结构化参数，冗余 notation 会被循环放大。真正的价值在于提醒评测应同时报告任务质量与 token/latency，而不是只看成功率。
Paper2026-05-30arxiv.org原文 ↗
–
Periodic RoPE for Infinite Context LLMs
这不是简单拉长插值，而是把局部位置和全局交互分层处理，因此理论上避免无限外推。摘要仍较短，实际有效性取决于任务是否需要精确全局顺序，而 NoPE 全局层可能牺牲一部分位置可辨性。
Paper2026-05-29arxiv.org原文 ↗
–
Lum1104/Understand-Anything
它把代码理解产物显式化为图，而不是只让 agent 临时读文件。价值在可视化和可复用上下文；风险是图谱新鲜度、抽取准确性和大型仓库增量维护成本。
Trending2026-05-29github.com原文 ↗
–