论文 · Papers2026-06-05 · Friday, June 5, 2026

Agentic Chain-of-Thought Steering for Efficient and Controllable LLM Reasoning

ACTS 不是再给模型加一句“思考更短”的提示，而是在推理过程中插入一个控制器，让冻结的 reasoner 按预算、轨迹状态和任务难度动态改变思考策略。摘要称它把 steering 写成 MDP，并在多个 benchmark 上达到接近 full-thinking 的表现，同时减少推理 token；这使它更像 inference-time scheduler，而不是 prompt engineering。

–浏览

Agentic Chain-of-Thought Steering for Efficient and Controllable LLM Reasoning

评论 · Comments