139. 【Agent的综述】和苏煜聊Agent技术史、OpenClaw Moment、边界的消弭和社会的辐射张小珺Jùn|商业访谈录

139. 【Agent的综述】和苏煜聊Agent技术史、OpenClaw Moment、边界的消弭和社会的辐射

138分钟 ·
播放数72763
·
评论数126

前面在福莉和广密的节目中,我们深入揭示了AI的进化从第一幕Chat走向第二幕Agent。可以说,Agent是2026年的高频词。

关于Agent,我一直非常希望深入技术原理层,给大家做一次技术讲解,能够让我们一起非常清晰地了解技术的脉络。

今天我邀请的是俄亥俄州立大学计算机系教授、也是创业公司NeoCognition创始人,苏煜。苏煜是少数见证过Agent演化史的学者,研究方向是Language Agent。我们从更长周期复盘了Agent的技术演进史,尤其是最近三年Language Agent的快速进化。此外,苏煜也是2025年“斯隆研究奖”得主。

接下来,是我们对Agent的技术综述。

祝大家五一假期学习快乐啦^。^

OUTLINE:

00:02:00 苏煜是谁

00:03:30 Agent的技术演进史:从Logical Agent(1960-90s) → Neural Agent(2000年以后,神经代理)  → Semantic Parsing(另一边的故事,语义解析) → Language Agent(语言代理)

00:27:21 人类的进化史来说,语言非常晚发生,但对人类文明有了指数型发展

00:29:28 过去三年发展速度比过去几十年都要快,复盘Language Agent上的关键工作

00:40:56 At the end of the day,大家想要的就是universal digital agent;边界的消弭和coding有关

00:45:18 我是最早从Semantic Parsing转型做Language Agent的学者之一

00:48:56 OpenClaw Moment和ChatGPT Moment有非常多相似的地方

00:55:10 中美科技辐射的pattern不同,中国更全民化,在应用层的动作更快

01:02:05 创业新公司NeoCognition,最近融完了一轮$40M的seed round

01:20:30 聊聊Continual Learning、世界模型、交互(GUI vs. CLI)

01:44:34 Agent现在最大的瓶颈是什么?对2026年Agent进展的预期?

01:47:09 各个大厂都在Agent上bet什么,有什么有意思的bets?

01:52:47 我们这一代人经历了Agent的完整周期,我喜欢搭建conceptional framework

02:10:13 最后的快问快答

LINKS:

我们的播客在小宇宙Apple Podcast、Spotify等全音频平台播出;

我们的视频播客在Bilibili小红书、视频号、抖音等全视频平台播出;

如果你想服用文字版,请搜索我们工作室的公众号:语言即世界language is world。

DISCLAIMER: 本内容不作为投资建议。

CONTACT: xiaojunzhang@lisw.ai

Jump into the new world-and explore with us!😉

展开Show Notes
Gululi
Gululi
2026.5.02
嘉宾口才很好,听感max
HD851373z:娓娓道来
Bibli:大学老师你以为白当的
fred26
fred26
2026.5.09
提到的书籍:
The Symbolic Species 符号物种,特伦斯迪肯;

a thousand and brains of intelligence 千脑智能, 杰夫·霍金斯;

智能简史,麦克斯·班尼特;

人工智能:现代方法,斯图尔特·罗素;
苏老师的声音简直就是“谦谦君子,温润如玉”的具象化
GOOD棒
GOOD棒
2026.5.03
🌱自制时间轴,有需要的可以自己跳转⚙
🈶逐字稿 有没听清楚的地方可以看看🍻
🔗: https://pan.baidu.com/s/1ZY1D1XrbFFQWyOSqHJPoAw?pwd=7ypx 提取码: 7ypx

🤖 00:00
AI Agent全景开场 → 从工具到“数字员工”的跃迁
🧠 03:41
Agent核心能力拆解 → 感知 / 推理 / 行动如何闭环
📜 11:37
AI发展史复盘 → 从规则系统到大模型的关键转折
🚀 21:40
语言智能体崛起 → AI进化真正的分水岭
🔍 27:59
语义解析 vs Agent → 从“理解”到“执行”的本质差异
🧩 33:40
多模态时代 → 图像、语音、文本开始统一
37:19
2024-2025趋势 → Agent能力快速融合爆发
💻 42:10
编程正在消失? → 自然语言=新编程接口
🤝 45:17
人机关系重构 → 从工具使用到协同共生
🌐 48:54
交互革命 → ChatGPT / Open Cloud改变入口
🏢 53:24
大厂战略变化 → Agent成为下一代平台核心
🌍 55:08
中美差异 → 技术路径 vs 叙事方式的不同
⚖️ 56:53
社会影响 → AI如何改变就业与生产力
🧑‍🔬 59:58
专业Agent → 垂直领域智能爆发前夜
💰 01:06:54
融资逻辑 → AI项目该怎么讲故事
🧬 01:18:13
持续学习 → 真正“成长型Agent”的关键
🧠 01:22:09
神经科学视角 → 人脑如何启发AI
📚 01:28:07
语言与文明 → 为什么语言决定智能上限
🔮 01:37:13
未来交互 → Agent如何成为“第二大脑”
🧱 01:42:24
落地瓶颈 → 标准缺失与技术采纳难题
⚠️ 01:46:40
可靠性挑战 → Agent为什么还不够稳定
👨‍🔬 01:52:45
科研转创业 → AI时代的路径选择
⚖️ 01:56:27
学术 vs 创业 → 能力如何迁移
📈 02:03:40
创业判断 → AI Agent赛道未来机会
📖 02:10:16
必读书单 → 系统理解AI发展的入口
GOOD棒:🈶逐字稿 有没听清楚的地方可以看看🍻 🔗: https://pan.baidu.com/s/1ZY1D1XrbFFQWyOSqHJPoAw?pwd=7ypx 提取码: 7ypx
RegisK:请问是用什么方法转录到文稿的
3条回复
Gary_Gu
Gary_Gu
2026.5.01
大家可以多关注NeoCognition后续的工作!
RayHu
RayHu
2026.5.05
这期对 agent 过去和未来的梳理实在太棒了,分享一下纪要:

https://younavi.me/doc/zXgcOq4hV7VjTY49NVi5EzZj0Dk
RayHu:分享嘉宾:苏煜(俄亥俄州立大学计算机系教授、Neo Cognition 创始人、2025年斯隆研究奖得主) 核心主题:从技术史视角复盘 Agent 演进,解析 Language Agent 的范式革命与 2026 年技术趋势。 一、 Agent 的本质定义与核心要素 Agent(智能体)并非新概念,而是贯穿 AI 发展始终的主线。一个完备的 Agent 需具备三个要素: 实体性(Entity):具有明确的边界。 环境交互性(Environment):在特定环境中工作。 目标导向性(Goal-directed):其活动并非随机,而是为了达成特定目的。 Agent 能力的两个维度: Memory(记忆):涵盖知识的表达、获取、更新与遗忘。包括语义记忆(知识)、情景记忆(经历)和过程性记忆(技能)。 Autonomy(自主性):包括感知(Perception)、推理(Reasoning)、决策(Decision making)和行动(Action)。 二、 Agent 的技术演化简史 逻辑智能体(1950s - 1990s):以专家系统为代表,基于逻辑语言进行推理。瓶颈在于知识获取极其低效,无法表达复杂世界。 神经智能体 / 深度强化学习(2010s):以 AlphaGo 为代表。虽然在游戏等受限环境中表现强大,但其推理是隐式的,计算量固定且样本效率低下。 语义解析时代(2000s - 2020):关注如何将人类语言转化为机器可读的正式表达,扩大了 Agent 的行动空间,为后续大模型时代积累了技术先验。 语言智能体(2022 至今):基于 LLM 的新范式。核心变化是将语言作为“脚手架”(Scaffold),用于支撑感知、推理与行动。 三、 核心观点:语言是进化的加速器 压缩即智能:大语言模型的训练本质上是对世界信息的压缩,从表层符号压缩为对世界模型的内部表达。 符号化进化的“新赛道”:人类文明的爆发源于语言的出现,它允许信息跨越时空和代际传递。当前 Agent 经历的正是类似的“语言/符号化”进化节点。 语言作为脚手架:语言不仅是沟通工具,更是推理的媒介(如 Chain of Thought)。它让计算变得自适应,复杂的任务可以分配更多的 Token(即计算量)。 四、“OpenClaw Moment” 与范式转移 2025-2026 年出现的 OpenClaw Moment 与 ChatGPT Moment 具有高度相似性: 交互形式的质变:技术底层已成熟,但通过 24 小时在线(Always-on)、高权限开放(YOLO 模式)和即时通讯交互,彻底引爆了 Agent 的应用范式。 从 LLM 到 Agent 的跃迁:ChatGPT 标志着模型范式的变化,而 OpenClaw 标志着高度自动化、个性化 Agent 范式的确立。 边界消弭:Browser Use、Desktop Use、Coding Agent 等细分领域正在快速融合,最终趋向于“通用数字智能体”(Universal Digital Agent)。 五、 启发洞察:专业化与“微观世界模型” 通用智能廉价化,专业智能价值化:当通用智能成为标配,差异化将来自于“专业化”(Specialization)。 微观世界模型(Micro World Model):一个专家级 Agent 必须学会特定领域(如某公司的财务、某款软件的操作)的微观世界模型。 可靠性的基石:目前 Agent 在长程任务中不稳定,根本原因在于缺乏对特定环境的深刻理解。只有通过持续学习(Continuous Learning)构建起专业化的世界模型,才能达到 100% 的可靠性。 六、 关于人机交互(GUI vs CLI)的预判 GUI(图形界面)不会消失:人类进化决定了我们是视觉动物,GUI 是人与机器建立信任、审计和交互的最佳通道。 Agent 的“双轨制”交互:短期内 Agent 必须兼容 GUI 以利用现有的商业逻辑和约束;长期看,Agent 间会通过更高效的接口通讯,但 GUI 作为“事实接口”将长期存在。 七、 2026 年的技术预期与社会责任 主旋律:持续学习(Continuous Learning):2026 年的核心课题是解决 Agent 在真实部署环境中的自我进化,使其从“实习生”成长为“专家”。 技术的民主化:AI 研究者的责任是降低强大 Agent 的准入门槛,防止技术被少数巨头垄断,让每个有独特洞察的人都能将想法转化为生产力。 职业替代与重塑:面对技术进步引发的裁员与失业风险,社会需要建立更好的收益再分配机制,同时利用 Agent 工具赋予个人更强的生存能力。
sharpwhimsy:https://yb.tencent.com/wx/ct/YFPFxdP7Dp9nei 这期确实顶,弄了一个agent来整理术语wiki卡片和补充展开提到的一些关键概念和背景。 一、Agent技术演进三阶段 1. 逻辑智能体(1950s-1990s) • 基于符号逻辑与专家系统,受限于手工编码规则和知识获取瓶颈,最终因泛化能力不足导致AI寒冬。 • 关键局限:无法处理非结构化知识,依赖谓词逻辑(如Father(John, Mary))。 2. 神经智能体(2000s-2020s) • 以深度强化学习(DRL)为代表,通过试错学习隐式知识(如AlphaGo),但样本效率低且任务单一。 • 突破:从感知到行动的闭环,但缺乏通用推理能力。 3. 语言智能体(2022-2026) • 语言作为脚手架(Scaffold):LLM提供先验知识(物理常识、社会规范),通过CoT(思维链)、ReAct(推理+行动)实现自适应计算。 • 关键里程碑: ◦ 2022年:CoT(Google)显式推理、ReAct(普林斯顿)环境交互。 ◦ 2023年:Toolformer(Meta)工具调用、AutoGPT自主任务分解。 ◦ 2024-2025年:视觉交互(U-Ground像素级操作)、代码即接口(Code as API)。 --- 二、未来方向:Specialization与World Model 1. 专用化(Specialization) • 通用模型(如GPT-4)是基础,但垂直领域需构建领域世界模型(如医疗流程、工业操作)。 • 实现路径: ◦ 持续学习:通过交互数据迭代优化(如NeoCognition的World Model框架)。 ◦ 混合架构:结合符号逻辑(精确性)与神经网络(泛化性)。 2. 交互范式争议 • GUI vs CUI: ◦ GUI(视觉操作)短期仍是主流(兼容现有软件),但CUI(代码/API)长期更高效。 ◦ 反例:语义网(Semantic Web)因强推标准化失败,说明技术优越≠必然采纳。 3. 行业格局(2026) • 头部玩家:Anthropic(Claude计算机操作)、OpenAI(生产力Agent)、SpaceXAI(太空计算)。 • 创业机会:垂直领域Agent(如法律、医疗)、开源生态(降低技术垄断)。 --- 三、核心挑战 1. 可靠性:当前Agent任务完成率约70%,需通过World Model学习逼近人类专家级稳定性。 2. 社会影响:技术民主化(Democratize Access)与就业替代(Job Displacement)的平衡。 3. 评测标准:超越传统跑分(如MMMU多学科评测),关注生态效度(真实场景泛化能力)。 总结:Agent正从“工具”进化为“数字员工”,其核心壁垒将从通用能力转向领域专精(Specialization),而World Model的完善是实现这一跃迁的关键。
HD173860x
HD173860x
2026.5.05
听不懂,这一期很容易让人走神
沛区:真的
HD248376z:是的…虽然能理解很多专业术语 但真的听不下去了🌚
青藤_RrIz
青藤_RrIz
2026.5.02
这个嘉宾表达能力不行,太乱了,没有讲清楚。
郭丰_VoAE:还喜欢拽英文,有些根本没必要,非要英语一遍自己再中文一遍
HD543068h:带点脑子吧,人家英语环境生活,这个行业也是英语环境诞生
8条回复
2:00:40 笑死,苏老师就差把“天才”贴脸上了
HD591426t:“我当年参加清华自主招生 考了省里前几名 当然我没用上 因为我高考湖南省前十”
晨煊-
晨煊-
2026.5.01
小珺的更新这么快了啊?比人间一年,AI 一日的 AI 跑的还快啦😜
张小珺
:
😁
晨煊-:感谢小珺不“杀”之恩,虽然喜欢你的播客,但也不是赞同所有嘉宾,所以作为少数派,常有反共识的评论,而没有被小珺拉黑😜
王声声
王声声
2026.5.08
叠甲无效,含英量太高了,本质还是没有可以用中文通俗讲出来的能力。
HD543068h:这个行业就是英语环境发明的
HD781541r
HD781541r
2026.5.01
可以理解嘉宾讲专有名词用英文,可非专有名词,46级常用词汇也用得太多了
生而为猫奴:应该很少用中文做讲座,习惯性用英文思考了🤔
HD427438t
HD427438t
2026.5.07
又一个报效美国的清华学子
Q_Jacky:其实也有可能是好几年前,回国看了接触了一些学校和公司,没有合适的,就继续留在美国任教了
remake_nXm3
remake_nXm3
2026.5.04
转录的播客文字稿,转需:
通过网盘分享的文件:139期文字稿.md
链接: https://pan.baidu.com/s/1RIy8uJ9YZZc4FXH7rRjwwA?pwd=gq5v 提取码: gq5v 复制这段内容后打开百度网盘手机App,操作更方便哦
温皓宸的ai虚拟播客:我怀疑你是把小宇宙自动读取字幕的逐字稿给搞下来了,大佬,一模一样啊,拜谢,比起一些 AI 工具牛逼多了
steven_quacl
steven_quacl
2026.5.04
1:17:42 说是specialization的应用层有机会,但实际上研究方向还是一个超级底层的通用能力
fred26:都说智能是锯齿状的推进,苏煜的项目还是在找专家知识的共性啊
金林慧鸽
金林慧鸽
2026.5.07
1:56:27 盲猜嘉宾老师是INTJ?😝
steven_quacl
steven_quacl
2026.5.06
其实感觉看不清世界模型的,反复听苏老师这期播客就够了,
Tao_SqMr:推荐硅谷101最近的 世界模型 视频。讲得更清晰
good_luck
good_luck
2026.5.01
最近很高产啊 而且质量高
RealFeel
RealFeel
2026.5.19
2:11:43 《A Thousand Brains: A New Theory of Intelligence》
RealFeel
RealFeel
2026.5.19
2:10:42 《A Brief History of Intelligence: Evolution, AI, and the Five Breakthroughs That Made Our Brains》