论文:Toward Automated Robustness Evaluation of Mathematical Reasoning
一句话核心结论
现有大模型数学推理很脆弱,传统鲁棒性测试不精准、易污染,论文提出自动化数学压力测试框架 MaSTer,能精准挖漏洞还能用来微调增强模型稳定性。
它到底研究了啥
解决大模型数学推理鲁棒性差、一变形就错的问题,替代手工模板,做全自动、模型专属、防数据污染的数学鲁棒性评估。
研究场景
大模型数学推理鲁棒性测试:题目语义不变、形式轻微改写,看模型会不会做错。
测试对象
主流大模型,在 GSM8K、MATH-500 等数学数据集上测试。
怎么测的
用多轮改写 - 验证循环自动生成语义一致的对抗变体题
为每个模型动态生成专属测试集,降低数据污染
用生成的变体做微调,验证鲁棒性提升效果
测出来啥结果
MaSTer 能有效诱导模型出错,精准挖出数学推理漏洞
比手工构造的鲁棒性测试更灵活、更贴合模型真实弱点
可扩展到非数学任务,适用范围广
用 MaSTer 生成的变体微调,显著提升模型鲁棒性
最后结论
自动化压力测试比手工鲁棒性评估更靠谱,MaSTer 既能测漏洞,也能补漏洞,是数学推理安全增强的实用方案。
