Agentic Chain-of-Thought Steering for Efficient and Controllable LLM Reasoning
arxiv.org原文 ↗
ACTS 不是再给模型加一句“思考更短”的提示,而是在推理过程中插入一个控制器,让冻结的 reasoner 按预算、轨迹状态和任务难度动态改变思考策略。摘要称它把 steering 写成 MDP,并在多个 benchmark 上达到接近 full-thinking 的表现,同时减少推理 token;这使它更像 inference-time scheduler,而不是 prompt engineering。
–浏览
评论 · Comments