EP 66. 深度解读Coding Agent与OpenAI o3:中美Agent 创业者、研究员与投资人眼里的未来

EP 66. 深度解读Coding Agent与OpenAI o3:中美Agent 创业者、研究员与投资人眼里的未来

167分钟 ·
播放数12462
·
评论数42

终于来到了OnBoard! 2024 年压轴之作!那必须是绝对深度绝对精彩的一期!

年底关于 AI 的新闻太多,但是最值得我们压轴深入探讨的,必须是 coding agent ——即使已经有很多讨论,或许也都还是被低估。

不到两个月的时间,coding agent 产品完成了二连跳式的升级,从IDE 助手 Cursor 到 Replit Agent, Windsurf 为代表的 coding agent,到Devin 的惊艳发布,让我们意识到真正 end-to-end coding agent 的能力已经超过 coding 本身,打开了大模型未来全新的想象空间。

Hello World, who is OnBoard!?

更巧的是,就在我们录制这一期节目的凌晨,就是 OpenAI 12天发布会最后一天,OpenAI o3 横空出世,在编程和数学领域最有挑战的 Benchmark 上超越了绝大部分的人类,也让我们对大语言模型能力天花板的预期再次被刷新。

要展望2025年AI领域还会发生什么,coding agent 以及强化学习为新范式的 o3系列,无疑是最核心的问题。这一期的嘉宾,汇集了国内和硅谷 coding agent 一线创业者、coding 大模型研究员和 AI 投资人,这次长达三个多小时的讨论,在全网恐怕都很少见了,有一线 coding agent 设计解读,还有最新鲜热乎的对 o3 实现难点和未来挑战的拆解,你是不是还不知道,在好几个开源项目里,OpenHands 已经超越人类成为最活跃贡献者了?

我们还探讨了:

  • 为什么说 Devin 展示了“完成工作”的 scaling law?
  • 最早引领 coding agent 潮流的 Replit Agent,以及开源 Devin 项目 - Openhands, 是设计中有哪些关键决策?
  • Coding agent 未来是 Devin 形态赢家通吃吗?
  • 底层模型能力之外,coding agent 应用公司的核心能力和壁垒是什么?
  • Coding Agent 对于工程师和未来的组织和社会,会有哪些深远影响?
  • 如何看待 o3 超越大部分人类的能力?未来的发展空间在哪里?

理解这次内容需要一些背景知识,非常强烈推荐大家去复习Onboard! EP 62. 与Google deepmind 研究员对o1的讨论,以及EP 53 对coding agent 的第一次探讨,其中一位嘉宾姚顺雨,作为 SWE bench 的提出人,已经加入OpenAI 负责 agent方向的研究。

未来已来,不论你是否已经感知到,这3个小时,绝对值得你的时间。

感谢大家这一年以来的支持,如果喜欢我们的内容,今年最后有机会在小宇宙里面打赏,在Apple podcast, spotify 里面给五星好评啦!

我们明年见!Enjoy!

嘉宾介绍

  • Yusen Dai,真格基金管理合伙人,聚美优品联合创始人。
  • Zhen Li, Replit Agent 核心成员,Replit 资深工程师,ex-字节,Google.
  • Xingyao Wang, Allhands AI (开源项目 OpenHands) co-founder & Chief AI Officer, UIUC PhD.
  • Binyuan Hui, 阿里巴巴通义实验室科学家
  • Cohost: Peak, 真格基金EIR,前猛犸浏览器创始人
  • OnBoard! 主持:Monica:美元VC投资人,前 AWS 硅谷团队+ AI 创业公司打工人,公众号M小姐研习录 (ID: MissMStudy) 主理人 | 即刻:莫妮卡同学

我们都聊了什么

04:06 嘉宾自我介绍,最近用 coding agent 实现的有意思的任务

15:17 投资人视角下,Coding agent 发展历程中的核心节点,为什么说 scale of work 是最令人兴奋的机会

22:03 Replit Agent 诞生的历程,发展过程中的关键节点,从1-10 有什么计划

36:04 如何看待与Devin 的竞争?未来不同 coding agent 产品形态会融合吗?

39:01 OpenHands/All hands AI 不同寻常的诞生故事,打造开源 coding agent 的重要技术和商业决策?

41:48 Openhands 的架构设计,与Devin 的异同意味着什么?

49:24 Coding agent 与 Anthropic Computer Use 之间的关系?

54:35 OpenHands 产品发布以来,社区的主要反馈和重要变化?开源有什么作用?

1:04:40 Coding agent 产品的长期竞争力是什么?

1:09:20 o3 最让人印象深刻的是什么?对 coding 和AGI 未来有什么影响?

1:20:08 解决真实世界的复杂问题,o3 之后还需要什么?

1:24:33 SWE bench 被“刷爆”之后,下一个有意义的 benchmark 是什么?

1:36:27 Coding agent 领域今年还出现了哪些重要变化?

1:41:33 未来需要怎样的工程师和怎样的组织?

1:58:07 如何进一步提高模型 planning 的能力?完成多步骤任务能力如何实现?

2:07:45 Agent 的普及会带来哪些底层技术栈和工具的新机会?

2:17:25 投资人如何看待 AI agent 的价值和投资机会?未来中国 coding agent 的机会是怎样的?

2:25:55 快问快答:未来1年和3年对AI的期望,coding agent 翻车的例子,AI被高估和低估的能力

我们提到的公司和重点词汇

参考文章

欢迎关注M小姐的微信公众号,了解更多中美软件、AI与创业投资的干货内容!

M小姐研习录 (ID: MissMStudy)

欢迎在评论区留下你的思考,与听友们互动。喜欢 OnBoard! 的话,也可以点击打赏,请我们喝一杯咖啡!如果你用 Apple Podcasts 收听,也请给我们一个五星好评,这对我们非常重要。

最后!快来加入Onboard!听友群,结识到高质量的听友们,我们还会组织线下主题聚会,开放实时旁听播客录制,嘉宾互动等新的尝试。添加任意一位小助手微信,onboard666, 或者 Nine_tunes,小助手会拉你进群期待你来!

展开Show Notes
吕大K
吕大K
2024.12.30
1:48:55 讲的真的很棒。“未来,我们能做多少不再受能力所限,而是受限于想象力。”真挺值得一听的仨小时,就是语速稍微快了点,0.8倍速刚刚好😂
熊猫吃完饭:开头十分钟就发现了,会不会是莫妮卡怕大家觉得太久了调速了,0.8倍食用刚好
O_Observer:调速太快+1 哈哈哈
6条回复
HD472411i
HD472411i
2024.12.30
戴雨森真的是四处窜场啊😅
Shelley_iaFh
Shelley_iaFh
2024.12.31
两个重要感受
1.Coding Agent 的发展正经历从“辅助工具”(如代码补全)向“自主代理”(独立完成复杂任务)的跃迁。这要求我们重新理解人机协作模式,从“人主导”转向“人机协同”甚至“机主导、人监督”。
2.AI Agent的出现可能会像“算力的Scaling Law”一样,带来“工作的Scaling Law”,即可以低成本地购买和扩展“工作”。这将催生新的商业模式——“Sell Work”,即销售AI Agent完成的工作成果,而不是销售工具或服务。
Diiiiiiiii
Diiiiiiiii
2025.1.10
对 Agents 和 AI Coding 讨论质量较高的一期播客,比较认同的观点:

1. AI Coding 不仅仅是狭义的“AI 编程”,而是广义的 "Task Engine",是任务自动化。理论上来说,所有数字世界里单人+电脑能够完成的任务,都可以被这个引擎搞定。因此会出现类似 Agent Company 这种新的 Benchmark,可以将所有工作环境中可能涉及到的任务抽象成为数据集。

2. 之前这波 AI 落地过于依赖 Chat 了,结果两年下来,发现其实人类并没有那么多问题想要去问 AI,并且开放式聊天的需求也并不是太大,消耗不了太多 token。而任务自动化才是真正可以带来海量 token usage 的场景。可以将任务引擎理解为雇佣了一大堆工资极低的实习生(按照现有成本计算是加州最低工资的一半,但一年之内可能会再下跌一个数量级)。

3. 当前的 AI Coding 有两个方向。一个方向是更好的 o3,去解决越来越难的问题(现在已经是 Top200 人类程序员的存在),是要攒出牛顿和爱因斯坦,而另一个方向是更好的 Devin,去完成越来越复杂多步的实际任务,是要批量制造数字员工。尽管目前 Cursor/Windsurf(更像是 L2 的 Copilot) 和 Devin(更像是 L4/L5 的Autopilot) 的路线不尽相同,但长远来看,个人认为 Devin所代表的才是更为终极的形态。

4. AI Coding 目前面临的挑战,除了 Foundation 模型的持续进化之外,更主要的在于:如何用更多的 Data Integration 和 Data Access 获得更加充分的 Context,消除与人类的信息差(有趣的是有人提到张一鸣曾经说过的字节跳动的管理思路,More Context, Less Control,同样适用于模型);如何更好地使用各种 Computer Use 工具(例如Anthropic的MCP);如何从一条条 event stream 中建立高质量的 feedback loop;等等。

5. 围绕 Agents 落地会有一波新的机会,除了做各种水平或垂类任务自动化引擎的公司之外,还有各种“服务Agents”的 Infra 和 tooling 机会,比如帮它们标注数据、增强性能、打磨工具链、加深记忆、设置监控、提供反馈、保障安全、协助与人类的沟通等等。

6. 当执行工作都能够被 AI Agents 搞定之后,未来需要的人才画像是“Founder+CEO”,需要能够提出好问题,需要去思考“做什么” 而不是“怎么做”,需要更多具备产品和用户思维,需要做更多的决策而非执行。这与我们当前教育体系的培养目的是完全不同的。当前教育还是普鲁士工业流水线的遗产,是为了培养熟练产业工人而设计的。但 AI 时代,需要的不再是高效的执行能力,而是“做老板”的能力。
YihangWang
YihangWang
2025.1.25
催更莫妮卡,春节讲一期deepseek专题吧!
code agent -> digital agent -> physical agent
JoLeung
JoLeung
2025.1.09
50:43 mark 为什么需要模仿人类computer use的能力,而不直接靠api
Y__Q2wU:很多第三方应用是闭源收费的,比如工业软件领域。底层无法访问,所以只能模仿人类指令。
HD820846y
HD820846y
2025.1.01
反馈一个,语速太快了
东子哥:调成0.8就是正常语速了
July_777
July_777
2024.12.31
2:23:47 太干啦,2025 是程序员转型之年,哈哈
SimonAKing
SimonAKing
2024.12.31
很有价值
听起来00
听起来00
2024.12.30
19:06 目前日常使用是 cursor ,不知道 Devin 相比 cursor 费用会增加多少?
工程师薛昭:20 刀 vs 500 刀
听起来00:下载后发现了,试用都没有🙁能带来十倍的提升吗
4条回复
小和平鸽
小和平鸽
2025.1.11
被搜账号状态异常,无法显示 onboard666
hv707
hv707
2025.1.05
很精彩,压力感很大呀🙁
罗卿凯
罗卿凯
2024.12.31
这一集的语速是调快了,还是嘉宾语速本身就这么快?(脑子跟不上了
JoLeung:明显是调快了。感觉有的调过了
Asherlee
Asherlee
2025.1.02
提问还是挺考验人的:对这种一线很前沿的reaearcher/engineer 主持人怎么提问才能让对方吐出尽可能多有价值的东西😂
Elose_zyxt:首先自己得内行,有产研的能力
shadow
shadow
2024.12.31
多谢on board,前两天在公司内就听到Monica 很有价值的分享,这期节目信息量更大了👍
胖睛ENFJ
胖睛ENFJ
19小时前
老莫快来!!!!过完年要上班啦~!开工快乐,过年好!(正月里面都是年的催更话术😂)
于礼
于礼
20小时前
我对这个行当的现状总结是:
1️⃣ Copilot 与Agent 比,Copilot 是工具,Agent 是一个生产力,Labor,它可以自主的,端到端的完成任务,这意味着不会是一个每月20美金,而是2000美金的定价

2️⃣ 严格意义,Agent 没有跑通 PMF,两个没有,一是 Agent 在什么场景下,以什么样的形式存在,怎样跟人交互,怎样定价,一切是不清楚的;二是 Agent 需要什么样的模型出现,什么样的模型需要什么样的能力,使得 Agent 这样的事情能 work。

3️⃣ 一个人进入到公司,需要理解这个公司干什么,为什么,怎么干活。这里头是软件工程的两个重大问题,一是业务上下文,二是工程上下文。模型怎么演化是做不到的。需要长期推理运行。

4️⃣ 低代码,无代码 最终都在一个很小很小的领域内才有商业化价值。历史上也从未出现任何一个把软件工程门槛下降到大规模使用。这个世界仍然是【小部份人,创建大量软件,让大部份使用】

5️⃣ 但是,一个人通过一点点计算机的学习,利用 Agent 完成手头小应用的开发,这个是 字节跳动的一个野心,叫“最后一公里”。

6️⃣ 海外美国,更多的主力是在卷 infra,卷得非常厉害,数据合成啊,为 AI 需要 build 好你的“题库”。

7️⃣ Cursor 的成功是巨大的非共识。

8️⃣ 我们,仍然认可,通过 Code Integrity 来约束 CodeGen 这个思路作为 AI Driven 的开发者解决方案。
Leo小甲
Leo小甲
2025.1.22
建议直接讲英文…
bYsdTd_nick
bYsdTd_nick
2025.1.16
2:27:23 这里提到的网站是什么