[人人能懂AI前沿] 从数据主旋律、训练菜谱到探索式学习

[人人能懂AI前沿] 从数据主旋律、训练菜谱到探索式学习

27分钟 ·
播放数108
·
评论数0

你有没有想过,我们该如何“教育”一个AI?是让它死记硬背标准答案,还是给它海量数据让它自己野蛮生长?今天,我们就从几篇最新的AI论文出发,像一位精明的“AI成长规划师”,探讨如何让AI学得更聪明、更深刻。我们将一起揭开AI在猜谜游戏中的意外“短板”,学习如何为它定制一份防止“偏科”的训练菜谱,并探索一种比标准答案更重要的“过程奖励”机制。

00:00:32 你以为AI很聪明?它可能连猜谜游戏都玩不好

00:05:54 聪明AI的“偏科”难题

00:10:57 数据太多喂不饱AI?你需要找到主旋律

00:15:45 AI军备竞赛,真正的决胜点,在你看不到的数据战场

00:20:52 比“标准答案”更重要的东西

本期介绍的几篇论文:

[CL] Can LLM Agents Infer World Models? Evidence from Agentic Automata Learning

[The Hebrew University of Jerusalem & New York University]

arxiv.org

---

[LG] How Post-Training Shapes Biological Reasoning Models

[Harvard University]

arxiv.org

---

[LG] Active Learning with Low-Rank Structure for Data Selection

[Google Research & UC Berkeley]

arxiv.org

---

[CL] Spokes: Optimizing for Diverse Pretraining Data Selection

[DSO National Laboratories & Stanford University & University of Washington]

arxiv.org

---

[LG] ExpRL: Exploratory RL for LLM Mid-Training

[Stanford University & CMU & OpenAI]

arxiv.org