前 DeepMind 研究员、前百度无人车负责人：每个人都将成为 CEO，AI 会拥有 100 台云电脑

🎙️ 硅谷洞察局 EP09 | 前 DeepMind 研究员、前百度无人车负责人：每个人都将成为 CEO，AI 会拥有 100 台云电脑

一线洞察，深度思考。硅谷核心科技从业者，带你触摸 AI 变革深处。

---

📌 本期看点

当 OpenAI、Anthropic 还在卷大模型，市面上人人都在做 Browser Use 和 API Agent 的时候，有一家硅谷创业公司，从 2023 年成立第一天起就只啃一块最硬的骨头——让 AI 像人一样，用鼠标和键盘真正地"操作"电脑。

这家公司就是 Simular AI，创始人李昂——前 DeepMind 研究员、前百度阿波罗北美无人车团队负责人。本期我们请到他，聊聊为什么他们要选择最难、最反直觉的那条路，以及今年 3 月发布的新产品 Sai (赛) 背后的世界观：每个人都将成为 CEO，云端会有 100 台电脑同时为你工作。

这是一场关于 Computer Use Agent 本质、AGI 路线图、和创业反共识的深度对谈。

---

💬 本期金句

"如果一件事情真的非常顺其自然，那一定是有问题的——因为我们觉得顺其自然，其他人也会觉得。" —— 00:38:08

"agent 的对手是人类世界——是人的生活习惯。" —— 00:44:46

"创业公司很多成功，都是因为他没有尝试去改变（用户），而是在已有工作流上提升。" —— 00:45:33

"先打平人，你再谈怎么超越——你连鼠标都点不了，还谈什么 AGI?" —— 00:47:00

"AI 如果想更进一步，首先应该先假设自己是人，去做这些事，再谈别的。" —— 01:14:43

"最终每个人都会变成公司 CEO，你会有 100 台云电脑帮你做事。" —— 00:31:00

"DeepMind 不能 own 产品——这就是我必须出来创业的核心原因。" —— 01:13:00

"最终极的产品就是：我都不知道它存在，但它把事情帮我做了。" —— 01:30:53

---

📖 本期术语速查（听到不熟悉的词?翻这里）

Computer Use Agent（电脑操作智能体）：能像人一样移动鼠标、敲键盘、点击屏幕来完成任务的 AI Agent。区别于只调用 API 的 Agent。Simular 是这个赛道全球最早的玩家之一。

Browser Use Agent（浏览器操作智能体）：专门在浏览器里点链接、填表单、抓数据的 Agent。门槛比 Computer Use 低，做的人多。

OS World：学术界评估 Computer Use Agent 能力的标准 Benchmark，几百个真实操作系统任务（Word、Excel、Chrome 扩展安装等）。Simular 在 2024 年 12 月成为全球第一家在该榜单上达到人类水平（72.4 分）的公司。

Pass@K vs Pass^K：两种衡量 Agent 成功率的方式。Pass@K 是"K 次中至少 1 次成功"，适用于写代码;Pass^K 是"K 次必须全部成功"，一次错就算错——这才是真实业务场景需要的可靠性标准。

Sai（赛）：Simular 在 2025 年 3 月发布的产品——给每个人在云端配一台 Windows PC，Agent 可以 7×24 替你操作它。现在已经支持自带电脑，一个 workspace 可以挂多台。

Always-on Co-worker（永远在线的同事）：Sai 的产品定位，不是工具，而是一个不会下班的 AI 同事，在云端持续替你工作。

Harness Engineering（执行框架工程）：管理 Agent 任务流、上下文、出错恢复的"脚手架"。Simular 在 2024 年 10 月开源了业界第一个 Computer Use Agent Harness——比 Anthropic 的 Computer Use 早了一周。

MCP vs CLI：MCP（Model Context Protocol）是为 Agent 专门设计的协议;CLI 是给人用的命令行。本期讨论：为什么 2024 年大火的 MCP 在 2025 年被 CLI 反超?——因为大模型是用互联网上（为人写的）数据训练的，CLI 数据多到爆。

Lifelong Learning（终身学习）：李昂在 DeepMind 时期的核心研究方向。AGI 必须像人一样实时学习——白天像 Harness 不停记笔记，晚上 replay 训练改变权重。

---

🗂️ 内容大纲

一、Simular 的"反共识"基因

2023 年第一个 Demo：CEO 在机场远程操控发布会现场的电脑

为什么不做 Browser Use 也不做 API?——故意挑最难的

2024 年开源 Agent Harness：比 Anthropic Computer Use 早一周

二、Computer Use 的本质与难点

GUI 不会消失——这个世界的基建是为人造的，Agent 必须适应

视觉定位、长工作流的累积错误、Pass^K 的可靠性陷阱

为什么打款多 10 倍这种错误，99% 成功率也无法容忍

三、OS World 人类水平意味着什么

李昂团队 2024 年 12 月达到 72.4 分，首次平人

但这只是研究里程碑，真实场景需要 Multi-turn 交互、Human-in-the-loop

God Will 机制：Agent 在不可逆操作前必须停下来等审批

四、Sai 产品哲学：云端 100 台电脑

每个人都成为 CEO，云端会有 100 台电脑同时工作

为什么选 Windows?——全球最大装机量 + 微软合作

跟微软是 Frenemy：都做 AGI，但产品 DNA 不同

惊喜 Use Case：Fund Manager 自动 monitor 投资组合、二手车 Dealer 批量处理 100 张 DMV 注册

五、为什么 Computer Use > API

不是所有软件都会 API 化（老旧系统、DMV……）

Vibe Coding 让 GUI 也变多了——API 和 GUI 是同时增长的

人不是机器——视觉信息维度更高，GUI 是有用的

人最终为结果负责，不可能把所有 permission 全交给 Agent

六、MCP vs CLI 的逆转

为什么"为 Agent 设计的 MCP"被"为人设计的 CLI"打败?

数据决定一切——大模型在互联网数据（全是为人写的）上训练

AI 想进步，先假设自己是人

七、Token 浪费与 ROI 困境

Nathan 一天烧 600 美金、推特账号被 Agent 群发禁掉的真实经历

ROI 太低=资源浪费，这是限制下一个 10 倍的最大瓶颈

模型能力会持续提升，但 efficiency 还远远不够

八、从 DeepMind 到创业：为什么必须出来

2016 年 Facebook AI Research 已经预见 Scaling Law

DeepMind 不能 own 产品 → 没有完整闭环 → AGI 实现不了

终身学习需要 Agent + 用户反馈 + reflection 闭环——大厂里搭不起来

九、给 AI 研究员/大厂员工的建议

Storytelling 能力：把图像式的想法转换成逻辑语言

Apple 的细节执念：VP 会亲自把午餐三明治按种类分类

写代码烂大街了——人的价值在 design taste、product sense、对细节的把控

每个人都得 generalist：程序员要懂产品，设计师要会写代码

十、推荐产品：Granola（管它拉）

为什么记笔记这么"小"的产品能打动一个 CEO

无声的产品形态——不需要 Chatbot 那种"陌生人开场白"的尴尬

最好的产品：用户感知不到它的存在，但事情都被做了

---

🎤 主播与嘉宾

李昂 | Simular AI 创始人 & CEO，前 Google DeepMind 研究员（终身学习方向），前百度阿波罗北美无人驾驶团队负责人，前Facebook AI 研究员。Computer Use Agent 赛道全球最早的开拓者之一。

AI-Nate | 硅谷 AI 工程师，18 周打造 18 个 AI Agent 产品，AI 课程导师

AI-Siky | 斯坦福毕业，10年+硅谷经验，曾主导多家独角兽增长，现任顶级科技公司战略合作负责人

---

⏱️ 时间戳

00:00 开场 & 嘉宾介绍：Simular AI 创始人李昂

00:43 2023 年的第一个 Demo：CEO 在机场操控发布会现场

03:30 业界第一家 Computer Use 公司——比 Anthropic 早一年

06:00 为什么 Simular 不自己训练大模型?

09:00 Computer Use 的本质：让电脑自动化，而非只是鼠标键盘

12:00 视觉定位、长工作流——为什么 Agent 难

14:00 Pass@K vs Pass^K：打款多 10 倍就要被开除

16:00 API 和 GUI 的辩论：为什么不只用 API?

19:00 为什么人和 AI 应该和谐共存，而非完全替代

22:00 OS World 72.4 分：研究里程碑 vs 现实落地

25:00 Multi-turn 交互 + Human-in-the-loop = 真实场景

28:00 Nathan 真实案例：推特被 Agent 刷屏导致封号

31:00 Sai 的产品哲学：每个人 100 台云电脑

34:00 反直觉创业战略：不做 Low-hanging fruit

38:00 创业公司一定要找别人解不了的难问题

40:00 用户惊喜：Fund Manager + 二手车 Dealer 的真实 Use Case

43:00 GUI 不会消失——基建是为人造的

46:00 创业核心洞察：Agent 的对手是人类的生活习惯

47:00 AGI 路线图：先打平人，再谈超越

48:00 MCP 为什么被 CLI 反超?——数据为王

51:00 微软合作：Frenemy 关系如何处理

54:00 下一个 10 倍的瓶颈：Token 效率与 ROI

57:00 Nathan 烧 600 美金的故事 & Token 优化心得

01:00:00 终身学习：从 2016 Facebook 到 DeepMind 的研究主线

01:05:00 进化算法 + 强化学习——为 AGI 铺路

01:08:00 人脑假说：白天做 Harness，睡觉时 Replay 训练

01:13:00 为什么必须离开 DeepMind：大厂不能 own 产品

01:16:00 给 AI 研究员的建议：学会 Storytelling

01:19:00 Apple 4 年的 Lesson：对细节的执念

01:22:00 写代码烂大街后，人的价值在哪?

01:25:00 generalist 时代：每个人都要变 CEO

01:28:00 推荐产品 Granola：无声的产品形态

01:32:00 结语 & 感谢

---

📮 联系我们

播客邮箱：nathan@ai-nate.com

欢迎评论区留言交流，转发支持!

---

🎙️「硅谷洞察局」听友群开放中!

👉 扫码进群，和 Nathan、Siky 直接聊

🎯 告诉我们下期你想听什么

🤝 认识同样关注 AI 和硅谷动态的朋友们

---

🎁 听众福利

想看看 Nate 一天是如何和30个智能体一起工作的？Nate 开设了一堂免费快闪课程——从零开始，用 Nate 自主开发的 ClawBot 产品和背后的 AgentOS 系统，开启你一人公司的旅程。不需要编程基础，跟着做就行。

👉 免费报名：Build a 5-Agent Crew in 30 Min with ClawBot + AgentOS