资料探讨了大型语言模型(LLMs)在解决数学推理问题方面的能力和局限性,特别是在应用监督微调(SFT)之后。研究人员通过将AIME24数据集的题目划分为四个难度等级(易、中、难、极难),分析了模型在不同层级上的表现。他们发现,从“易”到“中”的提升只需少量SFT和特定推理风格,而“难”级别的问题则因推理链中的错误积累和计算复杂性导致准确率趋于平稳。对于“极难”级别的问题,LLMs因缺乏非常规解题技巧和几何直觉而普遍表现不佳,这表明简单地扩大SFT数据集规模并不能解决所有挑战。最终发现,尽管小型SFT模型在理论上可以解决与大型模型同样多的问题,但其主要障碍在于深度探索和计算中的不稳定性,并且精心策划的小规模SFT数据集带来的收益有限。


语言模型数学推理能力分析
8分钟 ·
0·
0