每日 Harness 开源 · Source

主题 · Topics — 每日 Harness

按 Agent / Harness 主题跨刊期浏览全部内容——进入任一主题查看其全部条目并按日期筛选,或回到全部刊期按时间浏览。

共 7 个主题分组 · 21 个子主题 · 207 条内容

1 认知与推理Reasoning

4 项

1.1 推理与规划Reasoning & Planning 2 项

查看全部 2 条

1.2 测试时计算Test-time Compute 2 项

查看全部 2 条

2 学习与自进化Learning & Self-Evolution

17 项

2.1 Agent RL / 可验证奖励Agent RL / Verifiable Rewards 9 项

查看全部 9 条

2.2 蒸馏与压缩Distillation & Compression 1 项

查看全部 1 条

2.3 自进化Self-Evolution 4 项

查看全部 4 条

2.4 合成数据与训练环境Synthetic Data & Environments 3 项

查看全部 3 条

3 记忆与上下文Memory & Context

35 项

3.1 Agent 记忆Agent Memory 10 项

查看全部 10 条

3.2 上下文工程Context Engineering 12 项

查看全部 12 条

3.3 检索与知识接地Retrieval / RAG 13 项

查看全部 13 条

4 工具与技能Tools & Skills

31 项

4.1 工具使用Tool Use 11 项

查看全部 11 条

4.2 技能系统Skills 14 项

查看全部 14 条

4.3 协议与互操作Protocols & Interop 6 项

查看全部 6 条

5 编排与多智能体Orchestration & Multi-Agent

20 项

5.1 多智能体Multi-Agent 8 项

查看全部 8 条

5.2 工作流与控制流Workflows & Control 12 项

查看全部 12 条

6 运行时与基础设施Harness Runtime & Infra

52 项

6.1 框架与脚手架Frameworks & Scaffolds 27 项

查看全部 27 条

6.2 执行环境与沙箱Execution & Sandboxing 15 项

查看全部 15 条

6.3 可观测性与调试Observability & Debugging 10 项

查看全部 10 条

7 评测与安全Evaluation & Safety

48 项

7.1 基准Benchmarks 9 项

查看全部 9 条

7.2 评测方法Eval Methodology 16 项

查看全部 16 条

7.3 安全与攻防Security 19 项

查看全部 19 条

7.4 对齐与治理Alignment & Governance 4 项

查看全部 4 条