【第616期】原生智能：通向自主演化智能体的元学习范式

Seventy3：借助NotebookLM的能力进行论文解读，专注人工智能、大模型、机器人算法、crypto方向，让大家跟着AI一起进步。

如果你想要解读自己的论文，获得更多曝光度。请联系小助手微信：seventy3_podcast 加群。
合作邮箱：zhiwudazhanjiangshi#gmail.com

今天的主题是：

Training LLM Agents for Spontaneous, Reward-Free Self-Evolution via World Knowledge Exploration

Summary

当今大多数智能体（agent）通过遵循人类定义的奖励和规则来“自我进化”。然而，这一过程从根本上仍高度依赖外部监督；一旦失去人类指导，进化便会停止。在本工作中，我们训练智能体具备内在的元进化能力，使其能够在执行任务前自发地学习未知环境。为了赋予这种能力，我们设计了一种基于结果的奖励机制，该机制衡量智能体自我生成的“世界知识”能在多大程度上提升其在下游任务上的成功率。这一奖励信号仅在训练阶段使用，用于教会模型如何有效地探索和总结。在推理阶段，智能体无需任何外部奖励或人类指令，即可利用其内部参数自发进行原生自我进化（native self-evolution），从而适应未知环境。当应用于 Qwen3-30B 和 Seed-OSS-36B 时，这种向原生进化的转变在 WebVoyager 和 WebWalker 上带来了 20% 的性能提升。最引人注目的是，所生成的世界知识甚至能让一个紧凑的 14B Qwen3 模型超越未经辅助的 Gemini-2.5-Flash，确立了一种真正进化型智能体的新范式。

原文链接：arxiv.org