Meta SPICE：语料库自博弈提升大模型推理

📖
论文信息
标题: SPICE: Self-Play In Corpus Environments Improves Reasoning

欢迎收听本期AI前沿解读。今天我们聚焦Meta AI最新提出的SPICE框架——一种通过文档自博弈实现语言模型持续自我提升的创新方法。

传统自博弈方法面临两大瓶颈：一是"幻觉放大"，模型依赖自身生成数据训练导致错误累积，3-4轮迭代后伪标签准确率就从79%降至63%；二是"信息对称"，问题生成者与解决者知识相同，无法突破能力边界。

SPICE通过三大创新破解困局：首先，将20,000份高质量文档作为外部知识源，包括数学领域的Nemotron-CC-Math和通用推理的NaturalReasoning数据集；其次，设计"挑战者-推理者"双角色机制——挑战者访问文档生成问题与标准答案，推理者在无文档条件下解题，形成信息不对称；最后，采用方差驱动的高斯奖励函数，当推理者成功率接近50%时给予最高奖励，实现难度自适应学习。

技术实现上，SPICE能生成多选题与自由形式题（整数/表达式/字符串答案），突破传统方法的领域限制。训练流程包括文档采样、任务生成、难度评估、角色交替和联合优化，形成能力提升的闭环。

实验显示，SPICE在四种模型上均实现显著提升：Qwen3-4B性能从35.8%升至44.9%（+9.1%），Qwen3-8B从43.0%升至48.7%（+5.7%），OctoThinker-3B从14.7%升至25.2%（+10.5%），OctoThinker-8B从20.5%升至32.4%（+11.9%）。对比实验表明，其性能超越强挑战者（+2.7%）、R-Zero纯自博弈（+5.4%）和Absolute Zero代码自博弈（+4.2%）等方法。

关键发现包括角色协同进化——固定推理者时，挑战者生成问题难度逐渐增加使通过率从55%降至35%；固定挑战者时，推理者能力提升使通过率从55%升至85%。消融实验证实文档语料至关重要，有文档支持时性能达43.9%，无文档时仅40.7%。

SPICE的方法论突破在于证明外部文档语料可作为环境交互接口，实现语言模型持续自我提升。其技术启示包括方差驱动难度调节、角色分离设计等创新点，尤其适合资源有限场景的模型优化。这项研究标志着AI系统从"封闭学习"迈向"开放世界学习"的关键转折，为通用人工智能的发展提供了新路径。

本期解读基于Meta AI 2025年10月论文《SPICE: Self-Play In Corpus Environments Improves Reasoning》，感谢收听。