

EP3: 验证的不对称性内容简介 这篇文章核心围绕 “验证不对称性” 与 “验证者定律” 展开。所谓验证不对称性,指的是不同任务中 “验证” 与 “解决” 的难度关系存在差异:有些任务验证远易于解决,比如数独和填字游戏解起来耗时,验证答案却很简单,搭建像 Instagram 这样的网站需要工程师团队多年努力,普通人却能快速检查网站是否正常运行;有些任务则相反,验证比解决更难,比如核查一篇论文中的所有陈述往往比撰写论文本身更费精力,提出一个新的饮食假说很容易,验证其对大众是否有益却可能需要数年;还有些任务的验证与解决难度接近对称,例如计算两个 900 位数的和,验证答案与解题本身的工作量相差无几。 验证不对称性可以通过前期准备得到改善。比如竞赛数学题若有答案密钥,验证任何答案都会变得简单;编程题通过设计覆盖全面的测试用例,能快速核查代码正确性,Leetcode 正是采用了这种方式。不过,有些任务即便优化验证流程,也难以让验证变得轻而易举,比如 “说出一位荷兰足球运动员” 这类问题,即便有著名球员名单,很多时候仍需要一定的验证工作。 文章提出的 “验证者定律” 指出,AI 训练解决任务的难易程度与任务的可验证性成正比。具体而言,具备客观真理(大家对好的解决方案有共识)、快速验证(几秒内可完成验证)、可扩展验证(能同时验证多个解决方案)、低噪声(验证结果与解决方案质量高度相关)、连续奖励(易于对多个解决方案的优劣排序)等特性的任务,最终都会被 AI 攻克。这是因为在强化学习中,验证能力等同于创建训练环境的能力,而可测量的事物往往能被优化。 文中以 AlphaEvolve 为例说明,在科学创新领域,解决单个未被攻克的问题(此时训练与测试合一)极具价值。未来,验证不对称性的普遍存在将让 AI 在可验证任务上展现出更强的能力,形成 “锯齿状智能边缘”——AI 在这些任务上会远比其他任务更擅长,展现出这一概念对未来的深远影响与潜力。 --- 原文 by Jason Wei 解读:豆包 AI
EP2: Vending-Bench 基于现实场景的 AI 评测Vending-Bench 是一个模拟评测环境,让 AI 扮演自动售货机运营者。系统会授予大模型一定额度的初始资金,大模型的目标是尽可能多的盈利并且维持售货机长期运营。这需要模型自动处理库存管理、订货、商品定价、成本核算等任务。模型会被赋予多种工具(如发送电子邮件联系供货商、进行网页搜索查询信息、执行计算等),整个模拟可以持续上百个仿真日,单次运行的交互上下文长度可能超过 2000 万 tokens —— 远超一般模型上下文窗口。从技术角度看,这项评测涵盖了任务建模、工具调用、网页操作和数学计算等多种能力要求,而且长期执行任务会极大考验模型持续、一致地推理和决策的能力。 Vending-Bench 通过多次独立运行来评估模型的表现和稳定性。每个模型通常运行 5 次仿真,以计算平均表现和波动。评估指标侧重于业务结果和持续性,包括最终累积的净资产收益、售出的商品总数,以及在仿真中维持运营的天数。这些指标全面反映模型既要赚钱又要不出严重差错的能力。通过这种长周期、多指标的评测,Vending-Bench 能够揭示模型在长期连续决策情境下的稳定性和弱点。 --- 材料整理:王三十九 播报:豆包 AI
EP1: Grok 4、Kimi K2、Meta 挖角大战与 Comet 浏览器来袭7 月 AI 大事件一波接一波,从马斯克的 Grok 4 高调登场,到月之暗面推出万亿参数开源模型 Kimi K2,再到 Meta 用上亿美元挖走 OpenAI 和 Google 顶级人才,AI 行业卷出了新高度。与此同时,Perplexity 发布了 AI 浏览器 Comet,Google 则用 24 亿美元打包 Windsurf 核心团队,悄悄完成一次“非收购式收购”。 本期节目,我们轻松对谈这些 AI 新闻背后的技术亮点、战略意图与大众反应,帮你在半小时内快速掌握 AI 世界的最新动向。 内容速览 * Grok 4:马斯克的 AI 新旗舰,语音视觉全能,还能“搜老板发言” * Kimi K2:中国 Moonshot AI 开源 GPT-4 对手,万亿参数、智能体能力爆表 * Meta 挖角大战:OpenAI 核心团队被重金撬走,AGI 梦想再提速? * Perplexity Comet:AI 搜索+助理组合拳,一场浏览器革命的预演 * Google 收编 Windsurf:24 亿买人不买公司,AI 编码领域新战线 --- 新闻整理:王三十九 播报:豆包AI