主题 · Topic
6.3 可观测性与调试Observability & Debugging
本主题共 10 条 · 最早 2026-05-29 · 最新 2026-06-04
2026 年 6 月2
-
Viewport
Viewport 是本地 AI agent 监控界面,用于观察 agent 运行状态和活动。digest 没给出更细的实现细节,项目定位接近 agent session dashboard:把原本散在终端、日志和工具输出里的状态集中起来。对于多 agent 或长任务,关键不是再加一个模型,而是让人能及时看到当前步骤、阻塞点和输出。它可以归入 agent observability 的轻量工具层。
原文 ↗– -
TraceGraph: Shared Decision Landscapes for Diagnosing and Improving Agent Trajectories
TraceGraph 把多模型 agent rollout 池化成任务级行动-观察图,再标出 productive cores、trap regions,并用 Access、Trap exposure、Repair 描述轨迹。它在五个 benchmark split 上显示单一 pass rate 隐藏了模型如何进入陷阱和如何修复。SWE-bench 上 trap-aware recovery 在…
原文 ↗–
2026 年 5 月8
-
Tokentoll, a CI gate for LLM API cost regressions
tokentoll 是 LLM API 调用成本的 CI gate,静态扫描 Python、JavaScript 和 TypeScript 中的模型调用并在 PR 上给 PASS/WARN/FAIL。README 示例规则包括月度成本增量 250 美元、单 callsite 月成本 100 美元、相对增长 5x,并支持 OpenAI、Anthropic、Google GenAI、LiteLLM、L…
原文 ↗– -
ryoppippi/ccusage
当 agent 使用进入日常开发,token 成本会变成团队运营指标。ccusage 的实用点是统一读取本地日志,不需要登录服务;它也让不同 agent、模型和项目的成本差异可见。
原文 ↗– -
git-ai-project/git-ai
这个项目的关键是不用“检测”AI 代码,而是在生成时记录来源。它把 AI attribution 变成 Git 原生元数据,适合审计、合规和评估工具效果;需要 agent 集成足够可靠。
原文 ↗– -
Claude-code-replay
这个项目关注的是 agent 开发中的可追溯性:当代码变化来自多轮工具调用时,日志比最终 diff 更能解释意图。它的有效性取决于 Claude Code 日志是否完整记录写入内容和路径。
原文 ↗– -
AISlop
AISlop 的取舍是明确不用 LLM 做判断,因此可重复、快、适合 CI。它检测的是模式化腐烂,不是语义 bug;最好作为 agent 编辑后的第一层卫生检查,再把剩余问题交给人或更强的 review agent。
原文 ↗– -
langfuse/langfuse
开源 LLM engineering 平台,提供观测、评估、prompt 管理、数据集和 playground。
原文 ↗– -
Various LLM Smells
一篇整理 LLM 应用中常见工程坏味道的个人技术文章。
原文 ↗– -
Benchmarks are Not Enough: RAMP for Runtime Assessing of Agentic Models in Production Systems
RAMP 的重点是把 agent 评测从单题正确率移到运行时可观察性:失败传播、恢复行为和资源浪费成为一等指标。它也提示静态 benchmark 高分可能掩盖 serial workflow 中的能力塌陷。
原文 ↗–