【第517期】Dr. Zero：无训练数据的自进化搜索智能体

Seventy3：借助NotebookLM的能力进行论文解读，专注人工智能、大模型、机器人算法、crypto方向，让大家跟着AI一起进步。

如果你有自己的论文要解读，或者推荐论文，请留言。

今天的主题是：

Dr. Zero: Self-Evolving Search Agents without Training Data

Summary

随着高质量数据日益难以获取，无数据自进化（data-free self-evolution）逐渐成为一种具有前景的新范式。该方法使大语言模型（LLMs）能够自主生成并解决复杂问题，从而提升其推理能力。然而，多轮搜索智能体在无数据自进化过程中面临显著挑战，包括问题多样性受限，以及多步推理与工具调用所带来的高额计算开销。

在本研究中，我们提出了 Dr. Zero——一个使搜索智能体在无需任何训练数据的情况下实现有效自进化的框架。具体而言，我们构建了一个自进化反馈闭环：由一个提议者（proposer）生成多样化问题，用于训练一个由同一基础模型初始化的求解者（solver）。随着求解者能力的提升，其性能反过来激励提议者生成难度更高但仍可解的问题，从而形成一个自动化课程学习机制（automated curriculum），协同优化两个智能体。

为提高训练效率，我们进一步提出了“跳数分组相对策略优化”（hop-grouped relative policy optimization, HRPO）方法。该方法将结构相似的问题进行聚类，构建组级基线，从而有效降低对每个查询单独评估其难度与可解性的采样开销。结果表明，HRPO 在不损害性能与稳定性的前提下，显著减少了求解者训练所需的计算资源。

大量实验结果显示，在完全无数据条件下，Dr. Zero 的性能可与全监督训练的搜索智能体相当，甚至更优。这表明，复杂的推理与搜索能力可以通过纯粹的自进化机制自然涌现。

原文链接：arxiv.org