[人人能懂AI前沿] 从模拟执行到量化坦诚:AI思考的五重解构

[人人能懂AI前沿] 从模拟执行到量化坦诚:AI思考的五重解构

28分钟 ·
播放数137
·
评论数0

本期节目,我们将深入AI的“内心世界”:你会发现,让AI多“思考”一会儿,它反而可能变得更诚实;而有时它的“思考”其实不是为了推理,更像是在努力“回忆”。我们还会聊到,最新论文如何让AI拥有调试代码的“灵魂”,如何量化它有多少“小秘密”不愿公开,以及一个聪明的“外行”AI领导,要如何带好一支能打的“内行”AI团队。

00:00:32 AI 不仅会写代码,还会自己找 Bug?

00:05:03 AI会撒谎吗?一个让你意外的答案

00:10:09 思考,不是为了推理,而是为了回忆

00:15:26 AI的“草稿纸”,它到底有多少不能说的秘密?

00:21:32 聪明的“外行”领导,如何带出能打的“内行”团队?

本期介绍的几篇论文:

[LG] Towards a Neural Debugger for Python

[Meta FAIR & Johannes Kepler University Linz]

arxiv.org

---

[CL] Think Before You Lie: How Reasoning Improves Honesty

[Google DeepMind]

arxiv.org

---

[CL] Thinking to Recall: How Reasoning Unlocks Parametric Knowledge in LLMs

[Google Research]

arxiv.org

---

[AI] Quantifying the Necessity of Chain of Thought through Opaque Serial Depth

[Google DeepMind]

arxiv.org

---

[LG] SCALAR: Learning and Composing Skills through LLM Guided Symbolic Planning and Deep RL Grounding

[CMU & Virginia Tech]

arxiv.org