CL-BENCH: AI为什么学不会新规矩

CL-BENCH: A BENCHMARK FOR CONTEXT LEARNING

这篇文档核心是讲了一个叫 CL-bench 的 “测试工具”，专门用来检验大语言模型（比如 GPT、Claude 这些）的 “现场学习能力”—— 简单说就是模型能不能像人一样，看完一段全新的资料后，立刻学会里面的新知识并用来解决问题，而不是只靠训练时记住的老知识。

先搞懂：什么是 “现场学习能力”？

平时我们用模型，大多是让它用已经学过的知识回答问题（比如问 “地球围着什么转”）。但现实里的任务更复杂：比如给它一份从没见过的公司规章，让它按规章判断某件事能不能做；或者给一套新发明的游戏规则，让它马上学会玩。这种 “给新资料→学新知识→解新问题” 的能力，就是文档说的 “现场学习”，之前很少有工具专门测试这个。

CL-bench 这个测试工具是怎么设计的？

为了测准，它有几个特点，说通俗点就是：

资料都是 “新的、没见过的”：测试里的内容要么是专家编的（比如虚构一个国家的法律），要么是改过后的真实内容（比如改历史事件细节），要么是特别冷门的新知识（比如最新的专业技术文档）。这样模型没法靠训练时的老知识蒙混，只能真的去学给的新资料。

任务分 4 类，覆盖现实场景：第一类：学专业知识（比如金融、医疗常识）然后做判断；
第二类：学规则体系（比如新游戏、新编程语法）然后应用；
第三类：学操作流程（比如产品说明书）然后执行；
第四类：学实验数据（比如物理实验结果）然后找规律。

评判标准超严格：每个任务都有详细的 “评分细则”（平均每个任务 16 条），比如 “必须提到资料里的某句话”“计算步骤不能错”，只有全满足才算合格，避免模型 “答得沾边就得分”。

测试结果怎么样？（重点来了）

10 个最先进的模型测下来，结果挺意外 ——平均只有 17.2% 的任务能做对。哪怕是表现最好的 GPT-5.1，也只搞定了 23.7%，连 1/4 都不到。

不同任务难度差很多：学专业知识、学操作流程相对容易点，学数据找规律最难（平均正确率才 11%）；

模型容易犯的错：要么直接忽略给的新资料（比如资料里说 “规则 A”，模型还按老知识来），要么学错用错（比如把资料里的 “步骤 1-2-3” 搞成 “1-3-2”），还有的连格式要求都达不到（比如要求列清单却写段落）；

越长的资料越难学：资料超过 3 万字时，模型正确率会大幅下降，比如 Claude 的正确率能掉 20% 以上。

为什么要做这个测试？

因为现在的模型看着厉害，但在现实场景里经常掉链子 —— 比如给它一份公司新改的报销规则，它可能还是按老规则判断；给一份冷门行业的技术手册，它没法快速学会用里面的知识解决问题。这个测试就是想把这个 “短板” 暴露出来，让后续的模型能针对性改进。

总结一下

这篇文档本质是 “给大语言模型的现场学习能力做了一次全面体检”，结果发现顶尖模型在这方面还很弱。而 CL-bench 这个工具，就是给行业提供了一个 “标尺”，让大家知道模型在 “学新东西、用新东西” 上到底差在哪，后续该怎么优化。