每日 Harness 开源 · Source
主题 · All topics

6.3 可观测性与调试Observability & Debugging

本主题共 10 条 · 最早 2026-05-29 · 最新 2026-06-04

视图 · View

2026 年 6 月2

  • Viewport

    Viewport 是本地 AI agent 监控界面,用于观察 agent 运行状态和活动。digest 没给出更细的实现细节,项目定位接近 agent session dashboard:把原本散在终端、日志和工具输出里的状态集中起来。对于多 agent 或长任务,关键不是再加一个模型,而是让人能及时看到当前步骤、阻塞点和输出。它可以归入 agent observability 的轻量工具层。

    2026-06-04github.com原文 ↗
  • TraceGraph: Shared Decision Landscapes for Diagnosing and Improving Agent Trajectories

    TraceGraph 把多模型 agent rollout 池化成任务级行动-观察图,再标出 productive cores、trap regions,并用 Access、Trap exposure、Repair 描述轨迹。它在五个 benchmark split 上显示单一 pass rate 隐藏了模型如何进入陷阱和如何修复。SWE-bench 上 trap-aware recovery 在…

    2026-06-02始 2026-06-01arxiv.org原文 ↗

2026 年 5 月8

  • Tokentoll, a CI gate for LLM API cost regressions

    tokentoll 是 LLM API 调用成本的 CI gate,静态扫描 Python、JavaScript 和 TypeScript 中的模型调用并在 PR 上给 PASS/WARN/FAIL。README 示例规则包括月度成本增量 250 美元、单 callsite 月成本 100 美元、相对增长 5x,并支持 OpenAI、Anthropic、Google GenAI、LiteLLM、L…

    2026-05-31github.com原文 ↗
  • ryoppippi/ccusage

    当 agent 使用进入日常开发,token 成本会变成团队运营指标。ccusage 的实用点是统一读取本地日志,不需要登录服务;它也让不同 agent、模型和项目的成本差异可见。

    2026-05-30github.com原文 ↗
  • git-ai-project/git-ai

    这个项目的关键是不用“检测”AI 代码,而是在生成时记录来源。它把 AI attribution 变成 Git 原生元数据,适合审计、合规和评估工具效果;需要 agent 集成足够可靠。

    2026-05-30github.com原文 ↗
  • Claude-code-replay

    这个项目关注的是 agent 开发中的可追溯性:当代码变化来自多轮工具调用时,日志比最终 diff 更能解释意图。它的有效性取决于 Claude Code 日志是否完整记录写入内容和路径。

    2026-05-30github.com原文 ↗
  • AISlop

    AISlop 的取舍是明确不用 LLM 做判断,因此可重复、快、适合 CI。它检测的是模式化腐烂,不是语义 bug;最好作为 agent 编辑后的第一层卫生检查,再把剩余问题交给人或更强的 review agent。

    2026-05-30github.com原文 ↗
  • langfuse/langfuse

    开源 LLM engineering 平台,提供观测、评估、prompt 管理、数据集和 playground。

    2026-05-29github.com原文 ↗
  • Various LLM Smells

    一篇整理 LLM 应用中常见工程坏味道的个人技术文章。

    2026-05-29shvbsle.in原文 ↗
  • Benchmarks are Not Enough: RAMP for Runtime Assessing of Agentic Models in Production Systems

    RAMP 的重点是把 agent 评测从单题正确率移到运行时可观察性:失败传播、恢复行为和资源浪费成为一等指标。它也提示静态 benchmark 高分可能掩盖 serial workflow 中的能力塌陷。

    2026-05-29arxiv.org原文 ↗