AI换个说法就翻车

AI换个说法就翻车

16分钟 ·
播放数22
·
评论数0

论文:Toward Automated Robustness Evaluation of Mathematical Reasoning

一句话核心结论

现有大模型数学推理很脆弱,传统鲁棒性测试不精准、易污染,论文提出自动化数学压力测试框架 MaSTer,能精准挖漏洞还能用来微调增强模型稳定性。


它到底研究了啥

解决大模型数学推理鲁棒性差、一变形就错的问题,替代手工模板,做全自动、模型专属、防数据污染的数学鲁棒性评估。

研究场景

大模型数学推理鲁棒性测试:题目语义不变、形式轻微改写,看模型会不会做错。

测试对象

主流大模型,在 GSM8K、MATH-500 等数学数据集上测试。

怎么测的

  1. 多轮改写 - 验证循环自动生成语义一致的对抗变体题

  2. 为每个模型动态生成专属测试集,降低数据污染

  3. 用生成的变体做微调,验证鲁棒性提升效果

测出来啥结果

  1. MaSTer 能有效诱导模型出错,精准挖出数学推理漏洞

  2. 比手工构造的鲁棒性测试更灵活、更贴合模型真实弱点

  3. 可扩展到非数学任务,适用范围广

  4. 用 MaSTer 生成的变体微调,显著提升模型鲁棒性

最后结论

自动化压力测试比手工鲁棒性评估更靠谱,MaSTer 既能测漏洞,也能补漏洞,是数学推理安全增强的实用方案。