6.3 可观测性与调试Observability & Debugging

本主题共 53 条 · 最早 2026-05-29 · 最新 2026-07-24

视图 · View

2026 年 7 月20

AgentTrails: Towards Trust and Reuse for Agentic Tasks
AgentTrails 把按时间排列的 agent 日志转换为数据流图，显式记录动作消费了哪些输入、产生了哪些中间产物，以及后续结论依赖什么。这样既能追溯错误来源，也能复用已验证的子任务结果，而无需重放整段轨迹；其核心贡献是让 provenance 成为 agent 工作产品的一部分。
Paper2026-07-24arxiv.org原文 ↗
–
AgentPulse
AgentPulse 用统一事件模型观测多 agent 系统，把消息、工具调用、状态变化和输出质量沿时间线对齐，再比较不同运行之间的行为漂移。它强调从轨迹群体中发现协作模式变化，而非只看单次 trace；适合定位模型升级、提示词修改或工具变更后出现的系统性偏移。
Project2026-07-24prove-ai.github.io原文 ↗
–
AgentDebugX
AgentDebugX 是一套面向 agent 轨迹的开源调试框架，把事件采集、故障定位、责任归因和恢复建议串成统一流程。它把一次失败关联到模型决策、工具返回、环境状态与前序依赖，而不是只展示聊天日志；论文用多类 agent 故障案例说明结构化 provenance 能缩短排查路径，尤其适合长任务和多组件系统。
Paper2026-07-24arxiv.org原文 ↗
–
Deterministic Replay for AI Agent Systems
作者提出基于 event sourcing 的智能体重放架构，把模型 token、随机性、外部 API 返回值、工具结果与运行时状态变化全部记录为事件。论文在 GPT-5、Claude 4.5、Gemini 2.5 Pro 和 Grok 4 上报告 100% 重放准确率，额外延迟低于 0.1%。它把智能体调试从“尽量复现”推进到可审计的执行记录，但代价是必须完整捕获边界外的非确定性。
Paper2026-07-23arxiv.org原文 ↗
–
microsoft/AI-Engineering-Coach
AI Engineering Coach 把多个编码助手的本地会话日志汇总成使用指标与工程实践报告，目标是回答团队“代理具体怎样被用、哪些习惯有效”，而不只是统计席位。跨工具分析有助于发现任务拆分、测试验证和反复返工模式，本地运行也减少代码与提示内容外传。它最大的分析风险是可观测行为不等于业务结果，报告应与缺陷率、交付周期和 review 质量结合，避免奖励高消息量或高 token 消耗。
Trending2026-07-22github.com原文 ↗
–
TRACE: An Operational Reasoning Schema for Auditable Agentic Commitments
TRACE 定义了 typed、versioned schema，用来记录 agentic commitment 和相关推理证据。论文关心的是可审计性：承诺从哪里来、基于哪些证据、经历了哪些版本变化，都应以结构化方式保存。它为高风险 agent 系统提供了一种日志设计思路，区别于事后让模型生成自然语言解释。
Paper2026-07-16arxiv.org原文 ↗
–
LoopGain
LoopGain 用控制理论和信号检测思路监控 agent loop。它把 agent 轨迹视为可观察信号，识别重复尝试、无效动作和收敛不成，而不是等待外层超时。对调试多步工具调用而言，这类运行时诊断比事后看完整日志更容易定位失控模式。
Project2026-07-16github.com原文 ↗
–
Grepathy
Grepathy 把 Claude Code transcript 整理成本地 markdown commit log。它关注的是 AI 编程的过程证据：最终 diff 之外，哪些提示、回答和选择导致了提交。用 markdown 保存意味着这些记录可搜索、可审阅，也能被纳入项目文档或代码评审背景材料。
Project2026-07-16github.com原文 ↗
–
AgentCheck: A Reproduce-Intervene-Mitigate Workbench for LLM Agents over MCP
AgentCheck 是一个基于 MCP 的 workbench，用于复现 agent 故障、注入干预并验证缓解措施。它把工具返回异常、状态污染和代理决策错误做成可重复轨迹，避免排查只停留在一次性日志阅读。它的看点是把 MCP 生态里的 agent 调试过程工具化：先复现，再介入，最后用同一场景确认修复有效。
Paper2026-07-15arxiv.org原文 ↗
–
Mindwalk
Mindwalk 把 Claude Code、Codex 等 coding-agent 会话日志回放到代码库的 3D 地图上，展示 agent 搜索、读取和编辑过的文件路径。它处理的是代理开发中常见但难观察的问题：模型究竟看了哪些上下文、绕了哪些路、改动集中在哪里。相比线性日志，这种空间化视图更容易发现无效探索、遗漏区域和高风险修改簇。
Project2026-07-13github.com原文 ↗
–
steipete/CodexBar
CodexBar 是 macOS 菜单栏应用，用来显示 Codex、Claude Code 等 AI 编码工具的用量与重置窗口。它把多个 agent 工具的配额状态集中到系统菜单栏，避免开发者在网页、CLI 和不同账户之间来回查。这个小工具反映了一个新需求：AI 编码工具已经变成需要监控额度的日常基础设施。
Trending2026-07-11始 2026-07-07github.com原文 ↗
–
modelcontextprotocol/inspector
MCP Inspector 是 MCP server 的可视化测试与调试工具。它能检查 server 暴露的 tools、resources、prompts，并在界面里发起调用，帮助开发者定位协议实现问题。随着 MCP server 数量增加，这类 inspector 会成为协议生态的基础调试层。
Trending2026-07-11github.com原文 ↗
–
Who Broke the System?
论文研究多 agent LLM 系统中的失败定位，问题是复杂轨迹崩溃后如何找出责任 agent 与关键阶段。它把分析粒度从最终答案扩展到跨角色、跨回合的不可恢复错误识别。对于越来越长的 agent pipeline，这类归因方法比单纯看日志更接近工程调试需求。
Paper2026-07-11arxiv.org原文 ↗
–
Record, replay, and improve AI agents in production
Kitaru 作为 agent runtime 放在模型/harness 与组织平台之间，记录每个 run 的 model call、tool call、decision 和 checkpoint。它允许从任意 checkpoint replay，并覆盖模型、参数或工具输出，直接比较“如果换个模型会怎样”。README 还提到 `kitaru.wait()` 可暂停释放 compute，`flow…
Project2026-07-07github.com原文 ↗
–
Rethinking Complexity Metrics for LLM-Integrated Applications: Beyond Source Code
HECATE 认为 LLM 应用复杂度不能只看源代码，还要把 prompt、上下文拼装、模型调用和非确定性行为纳入度量。论文的具体转向是从传统 code complexity 扩展到 prompt-layer behavior，这覆盖了 RAG、agent 和多阶段 LLM workflow 中最容易被静态分析漏掉的部分。它值得一读，因为 LLM 应用的维护成本往往藏在 prompt 与运行时交互…
Paper2026-07-04arxiv.org原文 ↗
–
Mcpsnoop
Mcpsnoop 是一个 MCP 透明代理和实时 TUI，插在 agent 与 MCP server 之间显示请求、响应和工具调用。关键设计是代理层观察协议消息，因此不需要改造每个 server 才能调试。它适合 MCP 工具链开发者，因为很多 agent 失败不是模型回答错，而是工具参数、返回结构或协议状态在中间出了问题。
Project2026-07-04github.com原文 ↗
–
SWE-Doctor: Guiding Software Engineering Agents with Runtime Diagnosis from Multi-Faceted Bug Reproduction Tests
SWE-Doctor 先指出一个反直觉现象：直接用高级 BRT generator 指导 patch generation 不一定有效，fail-to-fail BRT 会误导 agent，fail-to-pass BRT 也可能只覆盖 issue 的一个表现。它改为生成多面向 BRT，执行并调试这些测试，形成 runtime-grounded diagnosis records，再结合 BRT…
Paper2026-07-03arxiv.org原文 ↗
–
Flashtype - Markdown editor for Claude and Codex with in-line diffs
Flashtype 是 macOS 上的开源 Markdown 编辑器，打开本地文件夹和普通 `.md` 文件，内置 Claude Code 与 Codex。编辑区是 live rich text，而 agent 修改会直接落到同一文件，再以 inline diff 展示，用户可接受或拒绝。页面还提到 version history 由 Lix 提供 checkpoint；它真正解决的是写作/文档…
Project2026-07-03flashtype.com原文 ↗
–
Bayesian Uncertainty Propagation for Agentic RAG Pipelines
这篇把 Agentic RAG 的 planner、evaluator、generator 阶段都变成不确定性信号源，再通过 Bayesian Network 汇总系统级失败风险和节点级故障指示。实验用 StrategyQA、HotpotQA、GPT-3.5-Turbo、GPT-4.1-Nano，并以 AUROC、AUARC、ECE、Brier Score 衡量 discrimination、se…
Paper2026-07-03arxiv.org原文 ↗
–
TraceLab: Characterizing Coding Agent Workloads for LLM Serving
TraceLab 收集并发布真实 coding-agent serving trace，而不是用合成 benchmark 估算负载。数据约含 4,300 个 Claude Code 和 Codex 会话、350,000 个 LLM steps、430,000 次 tool calls，来自日常使用。分析显示 coding-agent workload 有长自治循环、长上下文短输出、重尾工具调用，以…
Paper2026-07-02arxiv.org原文 ↗
–

2026 年 6 月25

hoangsonww/Claude-Code-Agent-Monitor
Claude-Code-Agent-Monitor 是 Claude Code 实时监控 dashboard，用 SQLite3、Node.js、Express、React、Vite、TailwindCSS 和 WebSockets 构建。仓库描述列出 session、agent activity、tool usage、subagent orchestration、live analytics、K…
Trending2026-06-27github.com原文 ↗
–
Shotlist - Make your AI agent prove its work with real screenshots
Shotlist 用 `.shotlist.yaml` 把截图流程提交到仓库，让 Web 页面、真实 Terminal 窗口、渲染 CLI 输出和持久 session 都能一键重拍。README 说明 `shotlist run` 会生成 PNG、index.html proof report 与 manifest.json，`shotlist check` 可在 CI 中发现截图漂移，Claud…
Project2026-06-27github.com原文 ↗
–
modem-dev/hunk
Hunk 是面向 agent 生成 changeset 的 review-first 终端 diff viewer，基于 OpenTUI 和 Pierre diffs。它不负责生成代码，而是优化人类审查 agent diff 的界面和顺序。随着 coding agent 产出更多批量变更，review 工具会从“看 git diff”演进为“理解 agent 做了什么、哪些 hunks 需要拦截”…
Trending2026-06-23github.com原文 ↗
–
The text in Claude Code’s “Extended Thinking” output
Patrick McCanna 分析 Claude Code “Extended Thinking” 输出文本的性质。文章关注这些可见文字是否等同于模型真实内部推理，还是更接近产品化后的解释层。这个问题会影响用户如何审计 agent 行为、定位错误，以及判断“思考过程”在工程上能承担多少证据价值。
Blog2026-06-23patrickmccanna.net原文 ↗
–
Pulse
Pulse 把 Claude Code 的本地 session 文件变成监控和控制面板：token 花费、context fill、项目维度成本、全文搜索和 session recovery 都在本机完成。README 里比较实用的细节是手机审批路径，ntfy 通知能直接带 `Allow`、`Allow all`、`Deny` 按钮，不需要暴露端口；同 Wi-Fi 的 `/phone` 页面还能暂…
Project2026-06-22github.com原文 ↗
–
kenn-io/agentsview
agentsview 是本地优先的编码代理会话搜索、统计和 token 使用分析工具。它把 Claude Code、Codex 这类工具产生的历史记录变成可检索和可度量的数据，而不是只留在各自客户端里。这个项目和 Gora、summer 一起说明：代理使用进入常态后，围绕历史、成本和行为分析的周边工具会快速增多。
Trending2026-06-20github.com原文 ↗
–
Multiplayer Usage Tracking for Claude Code, Codex and OpenCode
summer 是一个本地 dashboard，用来在团队里追踪 Claude Code、Codex 和 OpenCode 的使用量。作者描述的工作流包括本地起 dashboard、用 useautumn.com 存储和管理 usage、并可 backfill historical usage。随着 coding agent 进入团队流程，使用量统计会从个人好奇心变成预算、容量和合规管理的一部分。
Project2026-06-20github.com原文 ↗
–
openobserve/openobserve
OpenObserve 覆盖 logs、metrics、traces、frontend monitoring 和 LLM observability。digest 显示它把传统 observability 与模型调用观测放到同一平台。这个组合反映一个现实趋势：LLM 请求、token、延迟、错误和成本已经成为生产系统遥测的一部分。
Trending2026-06-19github.com原文 ↗
–
Rootsign - tamper-evident audit logs for LangChain/CrewAI agents
RootSign 为生产 agent 工具调用建立防篡改 hash chain，每个 action 记录包含前一条 action 的 SHA-256 hash。`rootsign verify` 可以检测记录被改动的位置，exit code 也可用于自动化审计流程。v0.1.1 已有 LangGraph、CrewAI 集成、PII redaction、人类审批 checkpoint 和可选 dec…
Project2026-06-19始 2026-06-18github.com原文 ↗
–
PromptShark
PromptShark 是 AI agent 的本地 proxy/debugger，只需改 OpenAI SDK base_url 即可让每个 API call 流经代理。它记录 request/response、prompt/completion token、成本、TTFT，并通过 C++ loop detector 识别重复 tool call，默认阈值是 3 次连续相同调用。Time-tra…
Project2026-06-17github.com原文 ↗
–
junhoyeo/tokscale
Tokscale 是跟踪 AI coding agent token usage 和成本的 CLI/TUI 与 dashboard。README 列出支持 OpenCode、Claude Code、OpenClaw、Pi、Codex、Gemini、Cursor、AmpCode、Factory Droid、Kimi 等，并在 v2 中加入 native Rust TUI、跨平台支持、global l…
Trending2026-06-12github.com原文 ↗
–
comet-ml/opik
Opik 是开源 LLM 应用观测、评测和调试平台，覆盖 RAG systems 与 agentic workflows。仓库描述强调 comprehensive tracing、automated evaluations 和 production-ready dashboards，这些能力对应 LLM 应用里最难排查的部分：检索输入、prompt、工具调用、中间输出和评测结果之间的因果链。它与…
Trending2026-06-12github.com原文 ↗
–
Flightdeck
Flightdeck 是自托管的 AI agent observability 和 control plane，面向 production agents 与 coding agents。它把 LLM calls、MCP events、tool calls 流式送入 dashboard，提供 per-agent timeline、fleet-wide feed、events search、run i…
Project2026-06-12github.com原文 ↗
–
Boo
Boo 是用 Zig 写、基于 libghostty-vt 的 screen 风格终端复用器。它把 session 输出交给 Ghostty 终端仿真核心解析，因此能保存屏幕内容、样式、光标、scrollback 和 terminal modes；`peek` 返回的是重建后的屏幕状态，不是原始字节日志。README 还给出 agent-friendly automation loop：`new…
Project2026-06-12github.com原文 ↗
–
Setting a custom price for a model in AgentsView
Simon Willison 记录如何在 AgentsView 中为新模型手动配置价格，以分析本地 coding agent 的 token 成本。这个小功能的含义大于配置本身：agent 工作越来越长，模型价格变化越来越快，成本观察必须跟上模型切换和会话级调试。它把“这个任务花了多少钱”从账单月底问题变成工程过程中的即时反馈。
Blog2026-06-10simonwillison.net原文 ↗
–
AgentGraphed
AgentGraphed 是本地 Claude Code 与 Codex CLI 会话分析仪表盘。它读取 ~/.claude/projects/ 和 ~/.codex/sessions/ JSONL 日志，建立本地 SQLite 索引，并用 npx agentgraphed 启动 localhost:3737；README 示例显示一次首扫可发现 142 个 Claude、8 个 Codex se…
Project2026-06-10github.com原文 ↗
–
Agent-pd
Agent-pd 是面向 Claude Code subagents 的零 token audit log 工具，目标是在不占用模型上下文的情况下记录代理行为。它解决的是异常执行后的可追溯性：当 subagent 访问文件、运行命令或推进任务时，外部日志能帮助维护者复盘，而不是依赖模型自己记得做过什么。
Project2026-06-10github.com原文 ↗
–
Tokenomics: Quantifying Where Tokens Are Used in Agentic Software Engineering
论文分析 LLM 多智能体软件工程系统在 SDLC 各阶段的 token 消耗，而不是只看一次代码生成的开销。作者用 ChatDev 在 GPT-5 reasoning model 上执行 30 个软件开发任务，把内部阶段映射到设计、编码、补全、代码评审、测试和文档；初步结果显示迭代式 Code Review 平均占 59.4% token，输入 token 平均占 53.9%。这使 agenti…
Paper2026-06-08arxiv.org原文 ↗
–
plannotator
plannotator 用浏览器可视化审阅 coding agent 的 plans 和 code diffs，并把结构化反馈发回 agent。它把“先看计划再允许改代码”的控制点做成 UI，而不是让用户在长日志里找风险。这个方向对团队采用 coding agent 很实际，因为审查对象从最终 diff 前移到了执行意图。
Trending2026-06-07github.com原文 ↗
–
Dap-mux
Dap-mux 是一个把编辑器和 REPL 接到同一 debug session 的小工具。它要解决的是调试状态在交互探索、断点检查和编辑器视图之间分裂的问题；如果项目实现足够薄，价值会落在“复用同一会话”而非再造调试器。
Project2026-06-07news.ycombinator.com原文 ↗
–
Akmon
Akmon 给 AI agent session 加上 tamper-evident evidence 与离线验证层。README 强调只用 openssl 即可验证，不依赖云服务或平台锁定。它针对的是 agent 审计的证据链问题：事后证明某个动作、输出或轨迹没有被改写。
Project2026-06-07github.com原文 ↗
–
graykode/abtop
abtop 把 btop 风格监控带到 AI coding agents：它展示 token usage、context window utilization、rate limits、child processes、open ports 和 git stats。随着 agent 长时间运行，监控对象从 CPU/内存扩展到上下文窗口、成本、子进程和端口占用，这是很实际的运维层补齐。
Trending2026-06-05github.com原文 ↗
–
Lookspan
Lookspan 做 local-first agent observability，目标是查看 AI agent 的运行轨迹，而不是托管到第三方监控平台。这个方向的实用性在于 agent 失败通常发生在中间步骤：有本地 trace 浏览、事件序列和上下文记录，才能复盘工具调用链。
Project2026-06-05github.com原文 ↗
–
Viewport
Viewport 是本地 AI agent 监控界面，用于观察 agent 运行状态和活动。digest 没给出更细的实现细节，项目定位接近 agent session dashboard：把原本散在终端、日志和工具输出里的状态集中起来。对于多 agent 或长任务，关键不是再加一个模型，而是让人能及时看到当前步骤、阻塞点和输出。它可以归入 agent observability 的轻量工具层。
Project2026-06-04github.com原文 ↗
–
TraceGraph: Shared Decision Landscapes for Diagnosing and Improving Agent Trajectories
TraceGraph 把多模型 agent rollout 池化成任务级行动-观察图，再标出 productive cores、trap regions，并用 Access、Trap exposure、Repair 描述轨迹。它在五个 benchmark split 上显示单一 pass rate 隐藏了模型如何进入陷阱和如何修复。SWE-bench 上 trap-aware recovery 在…
Paper2026-06-02始 2026-06-01arxiv.org原文 ↗
–

2026 年 5 月8

Tokentoll, a CI gate for LLM API cost regressions
tokentoll 是 LLM API 调用成本的 CI gate，静态扫描 Python、JavaScript 和 TypeScript 中的模型调用并在 PR 上给 PASS/WARN/FAIL。README 示例规则包括月度成本增量 250 美元、单 callsite 月成本 100 美元、相对增长 5x，并支持 OpenAI、Anthropic、Google GenAI、LiteLLM、L…
Project2026-05-31github.com原文 ↗
–
ryoppippi/ccusage
当 agent 使用进入日常开发，token 成本会变成团队运营指标。ccusage 的实用点是统一读取本地日志，不需要登录服务；它也让不同 agent、模型和项目的成本差异可见。
Trending2026-05-30github.com原文 ↗
–
git-ai-project/git-ai
这个项目的关键是不用“检测”AI 代码，而是在生成时记录来源。它把 AI attribution 变成 Git 原生元数据，适合审计、合规和评估工具效果；需要 agent 集成足够可靠。
Trending2026-05-30github.com原文 ↗
–
Claude-code-replay
这个项目关注的是 agent 开发中的可追溯性：当代码变化来自多轮工具调用时，日志比最终 diff 更能解释意图。它的有效性取决于 Claude Code 日志是否完整记录写入内容和路径。
Project2026-05-30github.com原文 ↗
–
AISlop
AISlop 的取舍是明确不用 LLM 做判断，因此可重复、快、适合 CI。它检测的是模式化腐烂，不是语义 bug；最好作为 agent 编辑后的第一层卫生检查，再把剩余问题交给人或更强的 review agent。
Project2026-05-30github.com原文 ↗
–
langfuse/langfuse
开源 LLM engineering 平台，提供观测、评估、prompt 管理、数据集和 playground。
Trending2026-05-29github.com原文 ↗
–
Various LLM Smells
一篇整理 LLM 应用中常见工程坏味道的个人技术文章。
Blog2026-05-29shvbsle.in原文 ↗
–
Benchmarks are Not Enough: RAMP for Runtime Assessing of Agentic Models in Production Systems
RAMP 的重点是把 agent 评测从单题正确率移到运行时可观察性：失败传播、恢复行为和资源浪费成为一等指标。它也提示静态 benchmark 高分可能掩盖 serial workflow 中的能力塌陷。
Paper2026-05-29arxiv.org原文 ↗
–