[人人能懂AI前沿] AI的元认知革命：从自信校准、演化微调到偏好重对齐

你有没有想过，AI的“内心世界”是什么样的？本期我们要聊的几篇最新论文，就像是为我们打开了AI心智的几扇窗：当AI说“我很确定”时，它可能只是下定了决心；而一个“无欲无求”的旁观者AI，或许才是通往安全的新路径。我们还会看到，AI如何通过“开窍”学会跨界创新，如何用“错题本”学会自我反思，以及我们普通人如何拥有一本不用编程的“AI调校手册”。准备好了吗？让我们一起潜入AI思考的深处。

00:00:35 AI说“我确定”的时候，它到底在确定什么？

00:08:51 AI进化新思路，当个“旁观者”，而不是“操盘手”

00:15:50 让聪明的模型，学会“开窍”

00:20:02 一个会反思的AI，如何从犯错中学会正确答案

00:24:44 驯服AI，一个不用编程的调校手册

本期介绍的几篇论文：

[LG] Reported Confidence in LLMs Tracks Commitment More Than Correctness

[Google DeepMind]

arxiv.org

---

[AI] Safety from Honesty in a Disinterested AI Predictor

[LawZero & Arb Research]