【第629期】HEAVYSKILL:大模型代理框架中的深思内化技术Seventy3

【第629期】HEAVYSKILL:大模型代理框架中的深思内化技术

30分钟 ·
播放数0
·
评论数0

Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。

如果你想要解读自己的论文,获得更多曝光度。请联系小助手微信:seventy3_podcast 加群。
合作邮箱:zhiwudazhanjiangshi#gmail.com

今天的主题是:

HEAVYSKILL: Heavy Thinking as the Inner Skill in Agentic Harness

Summary

大语言模型(LLM)智能体测试基准环境(Agentic harness)的最新进展,结合了能够协调多个具备记忆、技能和工具调用能力的智能体的编排框架(Orchestration frameworks),在复杂推理任务中取得了显著成功。然而,真正驱动性能提升的底层机制,往往被掩盖在错综复杂的系统设计背后。

在本文中,我们提出了 HeavySkill,这一视角不仅将“深度思考(Heavy thinking)”视为编排基准环境中的最小执行单元,而且将其视为模型参数内部内化的一种“内在技能”(Inner skill),正是这种技能在驱动编排器去解决复杂任务。我们将这种技能定义为一个两阶段的管道,即“并行推理后进行摘要(Parallel reasoning then summarization)”,它可以在任何智能体基准环境的底层运行。

我们对 HeavySkill 在不同领域进行了系统的实证研究。结果表明,这种内在技能的表现持续优于传统的 N 选最优(Best-of-N, 简称 BoN)策略;值得注意的是,能力更强的 LLM 甚至可以逼近 N 次通过率(Pass@N)的性能。

至关重要的是,我们证明了深度思考的深度和广度作为一种可学习的技能,可以通过强化学习(Reinforcement learning)进一步实现规模化扩展(Scaled)。这为开发自演化(Self-evolving)的 LLM 探索出了一条极具前景的路径,即在不依赖脆弱编排层的情况下,使模型自身内化复杂的推理能力。

原文链接:arxiv.org