何时采信简易校验：面向推理任务的弱验证与强验证

听论文-懂大模型评测

16分钟 ·1 个月前

8

·

0

论文：arxiv.org

这篇论文核心是解决大语言模型（LLM）推理时的 “验证难题”—— 既要保证结果靠谱，又不想花太多成本，简单说就是 “既准又省钱”。

先搞懂两个关键概念：弱验证和强验证

就像我们检查答案有两种方式：

弱验证：快速粗查，比如让模型自己核对、用简单工具校验（像代码运行）。优点是快、花钱少、能批量弄；缺点是不准，可能漏错或误判（比如模型自己觉得答对了，其实错了）。

强验证：精准细查，比如人工逐行检查、用专业系统实测。优点是结果绝对靠谱，能建立信任；缺点是费时间、成本高，没法大规模用（比如让专家逐个核对所有模型输出，根本忙不过来）。

核心矛盾：快的不准，准的不快

现在的问题是：只用弱验证，容易出问题；全用强验证，成本扛不住。论文就是想找个办法，让模型知道 “什么时候能信弱验证的结果，什么时候必须找强验证把关”。

论文的解决方案：智能切换的 “两阈值算法”（SSV）

论文设计了一套叫 “选择性强验证（SSV）” 的规则，核心逻辑很简单：给弱验证的得分设两个门槛（低阈值和高阈值），按分数分三种情况处理：

弱验证得分高于高阈值：说明模型对答案很有把握，直接接受，不用麻烦强验证；

得分低于低阈值：说明答案大概率错，直接拒绝，也不用强验证；

得分在两个阈值之间：拿不准，赶紧找强验证来判断。

而且这套规则不是固定的，会动态调整：比如如果发现弱验证经常把错答案当成对的（误判），就自动提高 “高阈值”，让弱验证更严格；如果经常漏掉正确答案（漏判），就降低 “低阈值”，减少误拒。

实际效果：靠谱又省钱

论文用数学题（MATH 数据集）和数独游戏做了测试，结果很明显：

准确率：和全用强验证差不多（几乎一样靠谱）；

成本：强验证的使用次数大幅减少（比如数独游戏里，强验证调用次数少了 46%）；

灵活性：还能根据需求调整 —— 想更靠谱就把阈值调严（多花点强验证成本），想更省钱就调松（稍微牺牲一点准确率，但仍在可控范围）。

在小宇宙打开