你有没有想过,AI的“内心世界”是什么样的?本期我们要聊的几篇最新论文,就像是为我们打开了AI心智的几扇窗:当AI说“我很确定”时,它可能只是下定了决心;而一个“无欲无求”的旁观者AI,或许才是通往安全的新路径。我们还会看到,AI如何通过“开窍”学会跨界创新,如何用“错题本”学会自我反思,以及我们普通人如何拥有一本不用编程的“AI调校手册”。准备好了吗?让我们一起潜入AI思考的深处。
AI说“我确定”的时候,它到底在确定什么?
AI进化新思路,当个“旁观者”,而不是“操盘手”
让聪明的模型,学会“开窍”
一个会反思的AI,如何从犯错中学会正确答案
驯服AI,一个不用编程的调校手册
本期介绍的几篇论文:
[LG] Reported Confidence in LLMs Tracks Commitment More Than Correctness
[Google DeepMind]
---
[AI] Safety from Honesty in a Disinterested AI Predictor
[LawZero & Arb Research]
---
[CL] Evolution Fine-Tuning: Learning to Discover Across 371 Optimization Tasks
[University of Minnesota & CMU & KAIST]
---
[AI] Flow Reasoning Models: Scaling Reasoning Through Iterative Self-Refinement
[Georgia Tech & MIT]
---
[CL] REAR: Test-time Preference Realignment through Reward Decomposition
[Nanyang Technological University & UC Berkeley]
![[人人能懂AI前沿] AI的元认知革命:从自信校准、演化微调到偏好重对齐](https://image.xyzcdn.net/FqWpK8fpivLboaqBbRHUe_BCOvxu.png@small)