[人人能懂AI前沿] 从金牌教练、未来探测器到“四两拨千斤”的导师

[人人能懂AI前沿] 从金牌教练、未来探测器到“四两拨千斤”的导师

28分钟 ·
播放数174
·
评论数0

AI会因为“全军覆没”而心态崩溃吗?本期,我们将探讨一篇最新论文如何用“全局视野”为AI建立稳定心态。接着,我们会揭示AI如何通过构建“世界模型”学会预判,真正从“知道”走向“行动”。我们还会聊聊,怎样给AI作画模型装上一个“未来探测器”,让它更听话、更有创造力。最后,我们将看到大小模型间“四两拨千斤”的师徒协作模式,并解剖一个反常识的发现:大模型变聪明,靠的可能不是层层递进的深度,而是“人多力量大”的朴素智慧。

00:00:41 高手过招,如何不让“一题之失”毁了心态?

00:06:19 让AI“涨记性”,它怎样才能不犯“想当然”的错?

00:11:40 AI作画不听话?给它装个“未来探测器”

00:16:40 AI世界的“四两拨千斤”,如何让小模型拥有大智慧?

00:22:02 大模型变聪明的秘密,不是靠层层深入,而是靠人多力量大?

本期介绍的几篇论文:

[LG] EBPO: Empirical Bayes Shrinkage for Stabilizing Group-Relative Policy Optimization

[Meta AI]

arxiv.org

---

[CL] Reinforcement World Model Learning for LLM-based Agents

[Columbia University & Microsoft Research & Dartmouth College]

arxiv.org

---

[LG] Diamond Maps: Efficient Reward Alignment via Stochastic Flow Maps

[MIT CSAIL & CMU & TU Munich]

arxiv.org

---

[CL] MentorCollab: Selective Large-to-Small Inference-Time Guidance for Efficient Reasoning

[UIUC & University of Washington]

arxiv.org

---

[LG] Inverse Depth Scaling From Most Layers Being Similar

[MIT & Harvard University]

arxiv.org