【第638期】AutoTTS：大语言模型推理时间计算分配的自动发现

Seventy3：借助NotebookLM的能力进行论文解读，专注人工智能、大模型、机器人算法、crypto方向，让大家跟着AI一起进步。

如果你想要解读自己的论文，获得更多曝光度。请联系小助手微信：seventy3_podcast 加群。
合作邮箱：zhiwudazhanjiangshi#gmail.com

今天的主题是：

LLMs Improving LLMs: Agentic Discovery for Test-Time Scaling

Summary

测试时扩展（Test-time scaling, TTS）已成为通过在推理期间分配额外计算来提高大语言模型性能的有效方法。然而，现有的 TTS 策略很大程度上是手工设计的：研究人员往往凭直觉手动设计推理模式并调整启发式规则，导致大部分计算分配空间未被探索。

我们提出了一种环境驱动的框架 AutoTTS，它改变了研究人员的设计范式：从设计单个 TTS 启发式规则，转变为设计能够自动发现 TTS 策略的环境。

AutoTTS 的核心在于环境构建：发现环境必须使控制空间易于处理（tractable），并为 TTS 搜索提供低成本且高频的反馈。

具体实例化：我们将“宽度-深度”TTS 公式化为基于预先收集的推理轨迹和探测信号的控制器合成（controller synthesis）。在此框架下，控制器可以决定何时进行分支、继续、探测、剪枝或停止，并且可以在无需重复调用 LLM 的情况下进行低成本评估。
效率优化：我们进一步引入了 beta 参数化以使搜索更易于处理，并引入了细粒度的执行轨迹反馈，通过帮助智能体诊断 TTS 程序失败的原因来提高发现效率。

在数学推理基准测试上的实验表明，与强大的手工设计基线相比，自动发现的策略提升了整体的“准确率-成本”权衡（accuracy-cost tradeoff）。此外，这些策略还可以泛化到留出（held-out）的基准测试和不同的模型规模上，而整个发现过程仅需 39.9 美元和 160 分钟。

原文链接：arxiv.org