最近,有个华人团队发现,类似DeepSeek-R1-Zero的‘顿悟时刻’,可能并不存在。这其实是强化学习的结果,而非所谓的‘顿悟’。
「啊哈时刻」(Aha moment)这个概念最近在AI圈流行起来。它指的是AI模型像人类一样自我反思的时刻。
带给人眼前一亮的‘顿悟时刻’似乎在DeepSeek-R1-Zero中也出现了:模型开始以人类的语气进行反思。
各实验室都在重复这个实验。SimpleRL-Zero项目就是其中之一,它使用规定奖励提升模型的推理能力。
但新研究可能会给这个热潮泼冷水。海浪AI实验室和新加坡国立大学的研究人员发现,R1-Zero-like训练中可能没有‘顿悟时刻’。
研究指出,AI可能从未‘顿悟’,模型响应长度增加也不是因为‘顿悟’。
研究发现,基础模型在未经过强化学习训练的情况下就已经表现出‘自我反思’。
这些基础模型甚至在没有经过训练的情况下就已经能通过自我修正的推理链条解决复杂问题。
除了Llama-3.x以外的所有模型在未经过任何训练时就已经表现出了自我反思模式。
研究发现,一些模型比其他模型更喜欢使用‘反思’这个词。
研究也发现,有些模型的自我反思实际上并不能带来有效的答案,这是所谓的浅度自我反思。
研究者使用了一系列方法来研究这种浅度自我反思,以及其他因素,如温暖度和自我反思关键词的出现频率。
研究还在继续进行中,但已经揭示了强化学习对AI模型的重要影响。
研究者希望,即便没有所谓的‘顿悟时刻’,他们的研究也能推动AI领域的发展。
研究结果表明,或许简单的强化学习技巧就能将浅度自我反思转化为有效自我反思。
总的来说,即便没有‘顿悟时刻’,强化学习仍然对AI模型的发展至关重要。
参考文献链接:oatllm.notion.site
-------------
