人工智能实现自我怀疑，自我认证改正。4天前，DeepSeek发布自验证数学推理的大型语言模型，超越了传统上仅奖励最终答案的局限。研发团队通过训练一个基于大模型的验证器，来根据严格的标准（0、0.5或1分）评估数学证明的正确性与严谨性。为了确保验证的准确性和忠实性，系统引入了元验证环节，用于评估验证器本身发现的问题是否合理并与其评分相符。随后，一个证明生成器以验证器的结果作为奖励信号进行训练，激励模型在最终确定结果前进行自我验证并解决其推理中的缺陷。这种验证和生成迭代改进的协同机制使得 DeepSeekMath-V2 表现出色，在包括 IMO 2025 和 Putnam 2024 在内的高级别数学竞赛中取得了金牌水平的成绩。这项工作证明了大型语言模型可以在复杂的推理任务中培养出有效的自我评估能力。

SHARE

COMMENT

VOICE_COMMENT

COMMENT_PAGE

CLAP

PICK

VOTE

AI_SUMMARIZE

yuhualux

起初是自学，然后发现可以做播客分享知识，很奇妙。
从人工智能到禅宗，从军事装备到诗歌艺术，搞快点很重要！

AI_SUMMARIZE_EPISODE

叔的赛博大乱炖

叔读DeepSeekMath-V2数学超越实现自我验证

68edeb3235129a8ac105c6c3/Fk14ieqgHsql8W-8vYuI66iuy3m0.m4a