【第629期】HEAVYSKILL：大模型代理框架中的深思内化技术

Seventy3：借助NotebookLM的能力进行论文解读，专注人工智能、大模型、机器人算法、crypto方向，让大家跟着AI一起进步。

如果你想要解读自己的论文，获得更多曝光度。请联系小助手微信：seventy3_podcast 加群。
合作邮箱：zhiwudazhanjiangshi#gmail.com

今天的主题是：

HEAVYSKILL: Heavy Thinking as the Inner Skill in Agentic Harness

Summary

大语言模型（LLM）智能体测试基准环境（Agentic harness）的最新进展，结合了能够协调多个具备记忆、技能和工具调用能力的智能体的编排框架（Orchestration frameworks），在复杂推理任务中取得了显著成功。然而，真正驱动性能提升的底层机制，往往被掩盖在错综复杂的系统设计背后。

在本文中，我们提出了 HeavySkill，这一视角不仅将“深度思考（Heavy thinking）”视为编排基准环境中的最小执行单元，而且将其视为模型参数内部内化的一种“内在技能”（Inner skill），正是这种技能在驱动编排器去解决复杂任务。我们将这种技能定义为一个两阶段的管道，即“并行推理后进行摘要（Parallel reasoning then summarization）”，它可以在任何智能体基准环境的底层运行。

我们对 HeavySkill 在不同领域进行了系统的实证研究。结果表明，这种内在技能的表现持续优于传统的 N 选最优（Best-of-N, 简称 BoN）策略；值得注意的是，能力更强的 LLM 甚至可以逼近 N 次通过率（Pass@N）的性能。

至关重要的是，我们证明了深度思考的深度和广度作为一种可学习的技能，可以通过强化学习（Reinforcement learning）进一步实现规模化扩展（Scaled）。这为开发自演化（Self-evolving）的 LLM 探索出了一条极具前景的路径，即在不依赖脆弱编排层的情况下，使模型自身内化复杂的推理能力。

原文链接：arxiv.org