[人人能懂AI前沿] AI的元认知革命:从自信校准、演化微调到偏好重对齐

[人人能懂AI前沿] AI的元认知革命:从自信校准、演化微调到偏好重对齐

30分钟 ·
播放数52
·
评论数0

你有没有想过,AI的“内心世界”是什么样的?本期我们要聊的几篇最新论文,就像是为我们打开了AI心智的几扇窗:当AI说“我很确定”时,它可能只是下定了决心;而一个“无欲无求”的旁观者AI,或许才是通往安全的新路径。我们还会看到,AI如何通过“开窍”学会跨界创新,如何用“错题本”学会自我反思,以及我们普通人如何拥有一本不用编程的“AI调校手册”。准备好了吗?让我们一起潜入AI思考的深处。

00:00:35 AI说“我确定”的时候,它到底在确定什么?

00:08:51 AI进化新思路,当个“旁观者”,而不是“操盘手”

00:15:50 让聪明的模型,学会“开窍”

00:20:02 一个会反思的AI,如何从犯错中学会正确答案

00:24:44 驯服AI,一个不用编程的调校手册

本期介绍的几篇论文:

[LG] Reported Confidence in LLMs Tracks Commitment More Than Correctness

[Google DeepMind]

arxiv.org

---

[AI] Safety from Honesty in a Disinterested AI Predictor

[LawZero & Arb Research]

arxiv.org

---

[CL] Evolution Fine-Tuning: Learning to Discover Across 371 Optimization Tasks

[University of Minnesota & CMU & KAIST]

arxiv.org

---

[AI] Flow Reasoning Models: Scaling Reasoning Through Iterative Self-Refinement

[Georgia Tech & MIT]

arxiv.org

---

[CL] REAR: Test-time Preference Realignment through Reward Decomposition

[Nanyang Technological University & UC Berkeley]

arxiv.org