人工智能实现自我怀疑,自我认证改正。4天前,DeepSeek发布自验证数学推理的大型语言模型,超越了传统上仅奖励最终答案的局限。研发团队通过训练一个基于大模型的验证器,来根据严格的标准(0、0.5或1分)评估数学证明的正确性与严谨性。为了确保验证的准确性和忠实性,系统引入了元验证环节,用于评估验证器本身发现的问题是否合理并与其评分相符。随后,一个证明生成器以验证器的结果作为奖励信号进行训练,激励模型在最终确定结果前进行自我验证并解决其推理中的缺陷。这种验证和生成迭代改进的协同机制使得 DeepSeekMath-V2 表现出色,在包括 IMO 2025 和 Putnam 2024 在内的高级别数学竞赛中取得了金牌水平的成绩。这项工作证明了大型语言模型可以在复杂的推理任务中培养出有效的自我评估能力。


叔读DeepSeekMath-V2数学超越实现自我验证
19分钟 ·
3·
0