从Reasoning Thinking到Agentic Thinking —林俊阳关于深度解析AI思维范式转移的思考

一支烟花AI播客

28分钟 ·3个月前

85

·

2

【节目简介】

Qwen团队前核心成员林俊阳(已离职)发表了一篇引发全行业思考的文章：

AI正在从"推理思维"转向"能动思维"——不是想得更久，而是为了行动而思考。

本期播客深度拆解这篇文章的六大核心论点，从o1/R1的教训，到Qwen3合并模式的坦诚反思，再到Agentic AI基础设施的全新挑战。

【时间线】

01:00　林俊阳是谁 · 为什么这篇文章重要

02:30　o1和R1的崛起教会了什么 · 确定性反馈信号

05:00　合并思考与指令模式 · 两种目标打架

07:30　Qwen3的坦诚反思 · "我们没有做对所有的事情"

09:30　Anthropic的集成哲学 · 不是开关而是连续体

11:30　Agentic Thinking核心 · 从考试到打游戏

14:00　五个全新问题 · 何时停止思考何时行动

16:00　Agent RL vs 推理RL · 安静教室vs嘈杂工地

18:30　环境成为一等公民 · 数据为王→环境为王

20:30　奖励攻击 · AI学会作弊

23:00　多Agent系统的未来 · 从模型到Agent到系统

25:00　竞争优势来源变了 · 环境设计+系统集成

26:30　AI的下一步不是想得更久而是做得更好

========================================

【核心观点】

· 推理思维问"模型能否想够久"，能动思维问"模型能否边想边做"

· 合并思考和指令本质上是两种互相矛盾的行为目标——像让一个人同时当学者和客服

· Qwen3的教训：分离仍然有吸引力，合并的描述比执行容易得多

· Anthropic的方向是有用的纠正：思考应该由目标工作负载来塑造

· Agent RL的基础设施远比推理RL复杂——环境不再是验证器而是训练系统的一部分

· 奖励攻击是Agent时代最大隐患：更好的工具=更大的作弊攻击面

· 竞争优势从RL算法转向环境设计、系统集成、控制装置工程

· 从训练模型→训练Agent→训练系统

========================================

【关于一支烟花】

一支烟花是一个关注AI前沿动态的创作者社区公众号：一支烟花AI 欢迎加入社群交流

展开Show Notes

2026.4.05

主播是ai吗？

一支烟一朵花

:对的，最近几期一直在调试效果慢慢优化

在小宇宙打开