每日 Harness 开源 · Source
返回本期 · Back to 2026-06-05

论文 · Papers2026-06-05 · Friday, June 5, 2026

Agentic Chain-of-Thought Steering for Efficient and Controllable LLM Reasoning

arxiv.org原文 ↗

Agentic Chain-of-Thought Steering for Efficient and Controllable LLM Reasoning
ACTS 不是再给模型加一句“思考更短”的提示,而是在推理过程中插入一个控制器,让冻结的 reasoner 按预算、轨迹状态和任务难度动态改变思考策略。摘要称它把 steering 写成 MDP,并在多个 benchmark 上达到接近 full-thinking 的表现,同时减少推理 token;这使它更像 inference-time scheduler,而不是 prompt engineering。
浏览

评论 · Comments