[人人能懂AI前沿] AI的内心独白:世界模型、自我裁判与安全惯性

[人人能懂AI前沿] AI的内心独白:世界模型、自我裁判与安全惯性

31分钟 ·
播放数134
·
评论数0

今天,我们要探讨如何让AI从一个只会“动嘴”的聊天伙伴,进化成一个真正“会看、会想、会动手”的智能体。我们会看到,最新论文如何让AI‘开眼看世界’,在脑中建立起预测未来的‘导航系统’,并从海量普通文本中自我启蒙,学会判断好坏。更重要的是,当AI要替我们行动时,它又是如何学会‘三思而后行’,在‘有用’和‘安全’之间找到那条微妙的平衡线呢?准备好了吗?让我们一起探寻AI从‘愣头青’到‘老司机’的进化之路。

00:00:40 AI为什么要“开眼看世界”?

00:07:16 为什么高手都自带“导航系统”?

00:13:19 AI的“行动许可”,它在动手前,先想了什么?

00:19:12 把白开水变成高汤,AI如何从普通文本中学会“好坏”

00:24:47 如何把一个“愣头青”AI,调教成“老司机”?

本期介绍的几篇论文:

[CV] Beyond Language Modeling: An Exploration of Multimodal Pretraining  

[FAIR, Meta]  

arxiv.org 

---

[LG] What Capable Agents Must Know: Selection Theorems for Robust Decision-Making under Uncertainty  

[CMU]  

arxiv.org 

---

[LG] Learning When to Act or Refuse: Guarding Agentic Reasoning Models for Safe Multi-Step Tool Use  

[Microsoft Research]  

arxiv.org 

---

[LG] Scaling Reward Modeling without Human Supervision  

[Harvard University & Cornell University]  

arxiv.org 

---

[LG] Safety Training Persists Through Helpfulness Optimization in LLM Agents  

[UC Berkeley]  

arxiv.org