【第616期】原生智能:通向自主演化智能体的元学习范式Seventy3

【第616期】原生智能:通向自主演化智能体的元学习范式

17分钟 ·
播放数0
·
评论数0

Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。

如果你想要解读自己的论文,获得更多曝光度。请联系小助手微信:seventy3_podcast 加群。
合作邮箱:zhiwudazhanjiangshi#gmail.com

今天的主题是:

Training LLM Agents for Spontaneous, Reward-Free Self-Evolution via World Knowledge Exploration

Summary

当今大多数智能体(agent)通过遵循人类定义的奖励和规则来“自我进化”。然而,这一过程从根本上仍高度依赖外部监督;一旦失去人类指导,进化便会停止。在本工作中,我们训练智能体具备内在的元进化能力,使其能够在执行任务前自发地学习未知环境。为了赋予这种能力,我们设计了一种基于结果的奖励机制,该机制衡量智能体自我生成的“世界知识”能在多大程度上提升其在下游任务上的成功率。这一奖励信号仅在训练阶段使用,用于教会模型如何有效地探索和总结。在推理阶段,智能体无需任何外部奖励或人类指令,即可利用其内部参数自发进行原生自我进化(native self-evolution),从而适应未知环境。当应用于 Qwen3-30B 和 Seed-OSS-36B 时,这种向原生进化的转变在 WebVoyager 和 WebWalker 上带来了 20% 的性能提升。最引人注目的是,所生成的世界知识甚至能让一个紧凑的 14B Qwen3 模型超越未经辅助的 Gemini-2.5-Flash,确立了一种真正进化型智能体的新范式。

原文链接:arxiv.org