

EP31|别再只看跑分了,AI 要进现实世界考试如果 AI agent 未来真的要替我们经营流程、处理客户、花钱、下单、退款,那我们还只看模型排行榜,够吗? 这一期我们从 Andon Labs 的真实世界评测聊起:他们不只是让模型答题,而是让 agent 经营自动售货机、实体店、和真实人类互动。结果暴露出来的,不只是模型聪不聪明,而是它在长周期、金钱压力、上下文膨胀、多 agent 协作和现实噪音里,会不会可靠。 本期会聊到: 00:04 为什么“benchmark 分数高”不等于 agent 可以直接上线; 00:43 Andon Labs 为什么从一台自动售货机开始测试长期 agent; 01:27 money-based eval 为什么比百分制排行榜更难饱和; 02:14 Claude 把每天 2 美元费用当成 cyber crime 的荒诞案例,真正说明了什么; 03:12 长上下文、反复失败和无法退出任务,如何把 agent 推进崩溃循环; 04:08 从模拟到真实:为什么人类才是最难预测的 out-of-distribution; 04:54 multi-agent 不是魔法:AI CEO、主 agent、专职 agent 如何制造新的协调问题; 05:52 竞争环境里的撒谎、退款拖延和价格联盟:为什么这不是猎奇,而是上线前必须测的风险; 06:43 eval awareness:当模型意识到自己在考试,它还会不会像真实场景那样行动; 07:34 空间、机器人、实体店和腐烂番茄:现实世界为什么比试卷脏得多; 08:29 国内团队做 agent 产品时,应该怎样重新定义“验收”; 09:10 为什么每个认真做 AI 的团队,都需要自己的 private eval; 09:55 最后的判断:真正的 final eval,是把 agent 放进现实世界的小事里,看它有没有把小事变成事故。 核心判断: 下一阶段的 AI 产品竞争,不只是接入最新模型,而是谁更早建立真实、长期、可追踪的评测系统。 来源说明:本期参考公开访谈与资料整理,主要包括 Latent Space: The AI Engineer Podcast 于 2026-06-04 发布的 Andon Labs 创始人 Lukas Petersson、Axel Backlund 访谈:Reality: The Final Eval — Lukas Petersson and Axel Backlund of Andon Labs(https://www.latent.space/p/andon)。内容为中文导读、摘要与评论,不是原节目逐字翻译,也不替代原节目。
EP31|AI 会做东西以后,审美才更贵当 AI 可以让一个原型、一个页面、一段代码变得越来越便宜,真正决定产品价值的,可能就不再是“谁能做出来”,而是“谁知道什么值得做”。这一期借 Tony Fadell 的产品经验,聊 AI 时代产品判断为什么反而更贵。 本期会聊到: 00:04 当人人都能做出产品原型,产品能力会不会贬值; 01:12 为什么真正的一点零产品,不能完全靠数据投票做出来; 03:28 Fadell 的“三代产品规则”:先做产品,再修体验,最后修生意; 05:07 为什么营销不是包装,而是把技术翻译成用户痛点的一部分; 06:26 “认知投降”和快时尚软件:AI 写代码之后,谁负责系统质量; 08:00 AI 不一定让界面消失,而是重新排列语音、键盘和触摸的层级; 09:04 产品判断里的道德责任:哪些增长不值得要,哪些钱不该赚; 09:55 AI 让执行变便宜以后,为什么审美、取舍和责任变得更稀缺。 核心判断: AI 可以降低执行成本,但不会替团队生成方向感;越是工具强大,产品人越不能把判断和责任一起外包。 来源说明: 本期参考公开访谈与资料整理,主要包括 Lenny's Podcast 于 2026-06-07 发布的 Tony Fadell 访谈:Father of the iPod and iPhone on building taste, judgment, and creativity in the AI era | Tony Fadell。内容为中文导读、摘要与评论,不是原节目逐字翻译,也不替代原节目。
EP31|智能便宜以后,什么会变贵?如果 AI 继续变强,很多人第一反应是问:我的工作会不会被替代?但这一期,我们换一个更底层的问题:如果智能、软件和自动化都变便宜了,钱会流向哪里?什么会被压价,什么反而会更稀缺? 本期会聊到: - 00:04 为什么“AI 能不能做”不是唯一问题,真正要问的是人们会不会为“真人在场”额外付钱。 - 01:12 什么是关系性部门:医生、老师、咨询师、表演者和服务里的信任、责任与共情。 - 02:49 劳动份额和资本份额为什么没有在过去自动化浪潮里一路归零,以及 AGI 可能带来的质变。 - 04:07 messy middle:最麻烦的可能不是瞬间失业,而是岗位慢慢被挤压、收入慢慢漏气。 - 05:11 为什么“AI 替代人以后直接发钱”并不简单:UBI、负所得税、全民基本资本背后的权力关系和资产敞口难题。 - 06:34 需求弹性:软件和算力变便宜后可能打开更多用途,但不是所有东西都会像软件一样无限扩张。 - 07:57 对个人、公司和国家的三个落点:信任、判断、组织责任,以及谁拥有 AI 收益权。 - 09:46 本期结论:AI 时代的核心问题,可能不是“人还剩什么任务”,而是“人还拥有什么稀缺”。 来源说明:本期基于 *Dwarkesh Podcast* 2026-06-04 单集 *Alex Imas and Phil Trammell – What remains scarce after AGI?* 做中文化解读与重构。嘉宾为 Alex Imas(Google DeepMind AGI Economics / University of Chicago)与 Phil Trammell(Epoch / Stanford)。 原文/Transcript:https://www.dwarkeshpatel.com/p/alex-imas-phil-trammell
EP30|坏环境,会把模型训练坏这一期《信号转译》,我们聊一个很容易被 AI 团队低估的问题:你以为自己在训练模型,其实可能是在训练模型适应一个坏系统。 如果训练 agent 的环境、奖励、缓存、状态和 mock 数据本身不可靠,模型不会“自动理解真实意图”。它会认真学习环境实际奖励的东西,然后把错误行为稳定复现出来。 本期会聊到: - 00:04 为什么 RL 环境不是背景板,而是训练数据生产线; - 01:42 旧缓存、错误状态,怎样让销售 agent 学会避开正确流程; - 03:11 reward hack:coding agent 为什么会学会硬编码测试输出; - 04:54 超时默认值、脏状态、奖励裁剪和 mock 数据失真; - 06:54 轨迹审查:怎么区分模型失败和环境失败; - 08:22 中文团队做内部 agent 时,为什么 demo harness 不能直接变成训练场; - 09:30 产品、工程和管理者分别应该问哪些问题; - 10:46 和上一期“现实世界考试”的关系:考试场也要是真的。 一句话带走:坏环境最危险的地方,不是让训练失败;而是让训练成功地走向错误方向。 来源说明:本期基于 Latent Space 客座文章:How to Stop Shipping Low-Quality RL Environments (with Examples)(Auriel Wright,2026-06-05)。 原文链接:https://www.latent.space/p/bad-envs
EP29|软件变便宜,判断更值钱当每个人都能搭出一个软件,软件本身还值钱吗? 这期我们从 Satya Nadella 在 Microsoft Build 现场的一场公开访谈聊起,但不做发布会复盘,也不念功能清单。更值得拿出来聊的是:当 AI 把“生成软件、启动 agent、重组流程”的门槛压低之后,真正稀缺的东西会从生产动作转向评测、上下文、维护、商业模式和人的判断。 本期会聊到: - 00:04 为什么“软件变便宜”不等于“好软件变便宜”; - 00:49 本期来源背景:如何把一场 Microsoft CEO 访谈听成组织能力问题,而不是厂商宣传; - 01:54 平台时代的新护城河:私有评测、业务上下文、工具链和执行轨迹; - 03:19 为什么 private eval 不是技术细节,而是组织有没有 AI 主权的标志; - 04:44 harness 到底是什么:模型、数据、工具和上下文如何变成企业 AI 的运行环境; - 06:12 coding agent 强到需要重建界面:从“写不写得出来”转向“人怎么管理一群 agent”; - 07:28 SaaS 不会简单消失,但数据模型、业务逻辑和 UI 会被拆开重组; - 09:05 AI 产品定价为什么会从按人头扩展到消耗计费,但按结果收费没那么简单; - 10:24 full-stack builder 与高杠杆 generalist:专业 edge 如何被 AI 放大; - 11:49 真正的 ambition 不是把困难变容易,而是把不可能变可能; - 13:11 数据中心、能源和社区许可:token economy 背后的真实成本; - 14:21 教育与学习:AI 没有取消理解,反而让理解更像分水岭; - 15:22 本期三个判断:评测、维护和人的判断,正在成为新的稀缺资源; - 16:24 来源说明与结尾问题:当生成越来越便宜,你手里最难被复制的判断是什么? 核心判断: 未来不是软件不值钱了,而是只会生产软件这件事不够值钱了。真正值钱的是:定义问题、建立评测、组织上下文、选择边界、承担判断。 来源说明: 本期参考公开访谈与资料整理,主要包括 Latent Space: The AI Engineer Podcast / No Priors 于 2026-06-03 发布的 Satya Nadella 访谈:Satya Nadella: No Priors x Latent Space Crossover Special at Microsoft Build(https://www.latent.space/p/satya-2026)。内容为中文导读、摘要与评论,不是原节目逐字翻译,也不替代原节目。
EP28|当 AI 开始写代码,GitHub 也要重写自己当 AI 开始大规模写代码,GitHub 面对的就不只是“多几个用户”,而是每个用户背后突然多了一群不会累的代码工人。 这期我们从 GitHub COO Kyle Daigle 的访谈聊起:agentic coding 为什么会让 commits、PR、Actions、CI、权限和 review 全部提速;以及软件协作从“人类开发者平台”进入“人和 agent 混合生产平台”之后,真正稀缺的会是什么。 本期会聊到: 00:03 为什么 AI 编程最先考验的,可能不是程序员,而是 GitHub 这样的开发者平台; 01:15 GitHub 活动量暴涨背后的数字:commit、PR、构建和权限检查如何被 agent 推高; 02:45 为什么 GitHub 的 uptime 压力不只是服务器问题,而是新型权限、monorepo、队列和 compute 问题; 04:10 pull request 在 agent 时代会怎么变:验证不等于信任; 05:36 开源维护者会最早遇到 AI-generated PR、信任信号游戏化和治理规则碎片化; 07:10 Copilot 从代码补全走向 coding agent SDK、CLI、桌面 app 和 cloud agents; 08:34 GitHub 内部怎么用 AI:不是只往前生成,而是回看 PR、会议、笔记和 Slack,把组织上下文串起来; 09:55 为什么 micro-skills 比万能 mega-skill 更适合真实团队的 AI 工作流; 11:10 ambient AI、OpenClaw、上下文引擎、沙箱和工作设备安全,为什么会变成下一代平台组件; 12:46 对国内团队的三条启发:别只看生成质量,要看流水线、信任和治理; 13:39 本期核心判断:AI 编程不是让 GitHub 多一个功能,而是让开发者平台重新进入基础设施战场。 核心判断: 当代码产量暴涨,真正稀缺的不再是“再写一段代码”,而是稳定、信任、上下文、审核、权限和可追溯的执行环境。 来源说明: 本期参考公开访谈与资料整理,主要包括 Latent Space: The AI Engineer Podcast 于 2026-06-02 发布的 Kyle Daigle 访谈:GitHub's plan for Agents — Kyle Daigle, GitHub(https://www.latent.space/p/github)。内容为中文导读、摘要与评论,不是原节目逐字翻译,也不替代原节目。
EP27|别只生成视频,让 AI 学会导演视频 AI 的下一步,可能不是“生成得更真”,而是开始像导演一样完成制作。 这期我们从 xAI Grok Imagine 的一线经验聊起:为什么视频生成会从一次性输出,走向能规划、生成、编辑、检查和交付的 video agent;以及这件事对创作者、产品团队和创业者意味着什么。 本期会聊到: 00:04 为什么视频 AI 的下一步不只是画面更真,而是 AI 开始承担“导演”和制作流程; 00:59 Ethan He 从 NVIDIA Cosmos 到 xAI Grok Imagine 的背景,以及几个月从零搭建视频模型团队说明了什么; 01:48 为什么很多视频模型的“智能”其实来自语言模型、prompt rewriting 和规划能力; 03:03 video agent 会如何像 coding agent 一样,从一次性输出变成规划、生成、编辑、评估、再生成; 04:06 为什么未来的视频 AI 会同时调用生成模型、剪辑工具、字幕工具和 FFmpeg,而不是所有事都交给一个模型; 05:20 视频模型真正贵在哪里:GPU 之外,还有存储、数据读写、网络传输和数据管线; 06:32 视频压缩和实时交互之间的冲突,以及 world model 为什么不是“更长的视频模型”; 07:32 生成式 UI 的想象:从用户意图直接到像素,界面可能变成临时生成的个性化前端; 08:40 对国内创作者和产品团队的启发:不要只做生成按钮,要做完整 workflow; 09:44 video agent 为什么会更贵,以及什么时候企业预算才会真正进来; 10:44 为什么视频 AI 的瓶颈会把我们重新带回 LLM、上下文管理和 agent harness; 11:42 本期核心判断:下一代视频 AI,不是更会变魔术,而是更会完成制作。 核心判断: 视频生成会继续变真、变快、变便宜;但真正改变行业的,可能是视频从一次性输出,变成一个可规划、可编辑、可验证、可交付的 agent 工作流。 来源说明 本期参考公开访谈与资料整理,主要包括 Latent Space: The AI Engineer Podcast 于 2026-06-01 发布的 Ethan He 访谈:Why Video Agent models are next — Ethan He, xAI Grok Imagine。内容为中文导读、摘要与评论,不是原节目逐字翻译,也不替代原节目。
EP26|AI 不是神话,是 1997 年的互联网这期不把 AI 讲成魔法,也不把它讲成泡沫。我们借 Benedict Evans 的一个判断,重新校准 AI 的时间尺度:它可能像一九九七年的互联网——方向很清楚,但终局远没有定型。 本期会聊到: - 00:04 为什么“AI 像一九九七年的互联网”不是降温,而是在校准时间尺度; - 02:47 AI stack 里的长期价值,为什么未必全都留在模型公司; - 04:05 为什么 AI 越强,咨询、部署、培训和组织改造反而越重要; - 05:17 软件更容易做之后,分发、信任和进入真实工作流会变成更硬的护城河; - 06:34 讨论就业影响时,为什么要区分“任务”和“一份工作”; - 08:03 反 AI 情绪背后的分配、尊严和责任问题; - 09:05 对产品团队、创业者和知识工作者分别意味着什么。 核心判断: AI 不是一个会在下个月给出终局答案的魔法,它更像一条已经铺开的新基础设施。真正改变世界的,不是某一次 demo,而是它慢慢进入每个人、每家公司、每个流程之后,重新分配价值和责任。 来源说明: 本期参考公开访谈与资料整理,主要包括 Lenny's Podcast 于 2026-05-31 发布的 Benedict Evans 访谈:A rational conversation on where AI is actually going。内容为中文导读、摘要与评论,不是原节目逐字翻译,也不替代原节目。 原链接:https://www.lennysnewsletter.com/p/a-rational-conversation-on-where
EP25|睡觉前把任务交给 AI?先学会写可验收目标很多人期待 AI 能“睡觉时工作”:晚上把任务丢进去,第二天醒来看到结果。但这件事真正的门槛,不是 AI 能不能跑,而是人能不能把目标写到可执行、可检查、可停止。 这一期《信号转译》,我们借 Claire Vo 对 Codex goal 命令的实操讲解,聊聊异步 agent 到底改变了什么:人类不再只是反复按“下一步”的提示者,而要变成目标设计师和验收负责人。 本期会聊到 00:04|为什么 goal 命令不是普通提示词,而是让 AI 围绕结果持续循环、检查和推进。 01:50|从 Sentry / Vercel 错误处理看:真正关键不是“AI 会修 bug”,而是任务能否被度量和验证。 03:29|一个好的 goal 应该包含什么:结果、证据、验证方法、边界、不确定处理和停止条件。 05:33|为什么异步 AI 不只是工程师工具,邮件、Linear、用户反馈和 backlog 也都适合变成高摩擦队列。 06:23|哪些任务不适合交给 agent 自己跑:高风险、强主观、失败代价高、责任链复杂的工作。 07:09|把团队里的 AI 任务分成三类:队列清理、内部改造、业务判断。 07:55|未来真正重要的不是提示词技巧,而是会写验收标准、权限边界和回滚条件。 08:28|一个可以今天就试的小实验:从低风险、重复、好检查的任务开始写 goal。 09:09|结论:AI 正在从回答者变成执行者,人类也要从提示者变成任务架构师。 来源说明 本期主要参考 How I AI / Lenny's Newsletter 单集 The Codex feature that works while you sleep(Claire Vo,2026-05-27)及其官方页面、章节和 transcript。 原节目链接:https://www.lennysnewsletter.com/p/the-codex-feature-that-works-while 相关公开说明:OpenAI Developers Cookbook — Using Goals in Codex。 本期是中文化解读与工作流转译,不是逐字翻译;示例和判断均围绕公开来源内容和国内产品/工程团队语境重新组织。
EP24|Claude Opus 4.8:模型升级,别急着换工作流这期《信号转译》聊一个模型发布后最容易被忽略的问题:新模型变强了,团队要不要马上把工作流切过去? 我们借 Claire Vo 对 Claude Opus 4.8 的早期测试,拆开看它适合放在哪些任务里:原型、一次性功能、并行探索,确实可能更快;但旧代码库、最后 10%、数据很重的策略和路线图判断,仍然不能被“看起来很完整”的输出骗过去。 本期会聊到 00:04|为什么模型升级不等于工作流立刻迁移 00:48|Claude Opus 4.8 更像一个“探索型同事” 01:34|从零搭原型为什么会改变产品讨论节奏 02:21|最后 10%:AI 最容易制造“差不多了”的错觉 03:13|已有代码库不是干净桌面,而是住了十年的房子 04:06|比模型分数更重要的是 harness:任务夹具、测试和验收 05:00|为什么新模型不一定全面替代旧模型 05:49|低风险探索、中风险协作、高风险判断:三层使用法 06:40|并行 subagents 和 effort control 真正改变的是什么 07:31|多个 agent 同时跑,不会自动带来正确答案 08:11|值得试,但不要一键迁移 08:51|失败能否快速发现和回滚,是最实用的采用标准 09:30|把新模型当前场球员,不要当守门员 10:05|团队自己的升级路线图,来自真实试点记录 来源说明 本期基于 Lenny's Newsletter / How I AI 的公开页面与章节信息:Claude Opus 4.8 is here. Is it as good as they say?(Claire Vo,2026-05-28)。 原文链接:https://www.lennysnewsletter.com/p/claude-opus-48-is-here-is-it-as-good 注:本集没有做逐字翻译,而是基于公开摘要、章节和来源信息进行中文化转译与工作流解读。
EP23|异步 Agent,正在改写团队交付流AI 写代码真正开始改变团队时,重点不只是“它能写多少代码”,而是团队能不能把需求、权限、执行环境、评审和验收,重新设计成一条可委派的异步交付流。 这期《信号转译》从 Cognition 与 OpenInspect 的访谈出发,聊后台 coding agent 为什么正在从个人工具,变成团队协作系统的一部分:从 Spec 到 PR,从 Slack 任务到测试视频,从 agent memory 到代码评审边界。 本期会聊到: - 00:04 一个 PM 在 Slack 里发起 PR,为什么不是偷懒,而是软件团队接口开始变形; - 01:04 从编辑器助手到异步执行者,coding agent 进入团队交付流后,团队到底要改什么; - 02:03 为什么 spec-to-PR 的关键不是 prompt,而是“可交付需求”; - 03:46 Devin commit 占比和 merged PR 增长背后,真正变化的是协作接口; - 05:07 PM 从 Slack 直接发起 PR,为什么会改变非工程角色参与代码修改的方式; - 06:01 agent 的电脑层不只是能不能跑,而是权限、工位和验收制度; - 07:33 为什么无审查的 vibe coding 会让代码库向最差模式回归; - 09:28 GitHub 评论、AI reviewer、测试视频和 Slack 线程,为什么都是异步 Agent 的基础设施; - 10:48 agent memory 不只是记聊天,而是组织知识怎样被持续调用; - 12:27 中文团队落地异步 Agent 时,为什么要先做低风险、边界清楚、验收明确的任务; - 13:18 异步 Agent 的价值,是让团队拥有一种新的、可委派、可评审、可拒绝的交付单位。 核心判断: 异步 Agent 的价值,不是让每个人身边多一个随叫随到的程序员,而是让团队拥有一种新的交付单位。未来真正稀缺的,不只是会使用 agent 的个人,而是能让很多 agent 安全、稳定、可控地一起干活的团队。 来源说明: 本期参考公开访谈与资料整理,主要包括 Latent Space 于 2026-05-28 发布的 Walden Yan 与 Cole Murray 访谈:The Age of Async Agents — Cognition's Walden Yan & OpenInspect's Cole Murray。内容为中文化导读、摘要与评论,不是原节目逐字翻译,也不替代原节目。
EP22|别只给 Agent 调工具,先给它一台能干活的电脑我们总说 agent 要会调用工具,但真正进入生产时,它缺的可能不是更多工具,而是一张可控的“工位”:电脑、权限、状态、日志、回滚和验收机制。 这期《信号转译》从 Daytona CEO Ivan Burazin 的访谈出发,聊 agent 为什么需要一台被产品设计过的电脑,以及国内团队做 AI 产品时,为什么要先想清楚执行环境和边界,而不是只卷模型和工作流。 本期会聊到: 00:04 为什么招人要给工位,做 agent 也不能只给一本“提示词员工手册”; 00:43 Daytona 的沙盒/agent computer 到底在回答什么产品问题; 02:31 sandbox 为什么不只是安全执行代码,而是状态、依赖、文件系统、浏览器和日志; 03:27 60ms 启动、5 万个 sandbox、85 万次日运行背后,agent 负载和传统 web 服务有什么不同; 04:54 为什么真实工作不只发生在 Linux 里,Windows、macOS、浏览器和桌面软件都绕不开; 05:58 “人在 loop 里”如果落不到权限和批准点设计上,就只是口号; 07:11 国内团队做 agent 时,真正该卷的可能是“边界质量”; 07:57 为什么未来 AI cloud 可能更像 Stripe,而不是 AWS; 08:55 一份给 AI 产品团队的 agent 生产化检查清单。 核心判断: Agent 下一段竞争,不只发生在模型层,也会发生在电脑层、权限层和验收层。谁能让 agent 更稳定地进入真实流程,谁就更接近生产级产品。 来源说明: 本期参考公开访谈与资料整理,主要包括 Latent Space 于 2026-05-21 发布的 Ivan Burazin 访谈:Giving Agents Computers — Ivan Burazin, Daytona。内容为中文化导读与评论,不是原节目逐字翻译,也不替代原节目。
EP21|别让 AI 接单,让它接上下文很多团队已经发现了一个奇怪现象:AI 让文档、代码、方案和原型都变快了,但团队并没有因此更轻松,反而多出了更多版本、更多审核、更多“谁来负责”的问题。 这一期《信号转译》借 Dan Shipper 在 Every 的观察,聊一个更底层的判断:AI 自动化真正改变的,不是少做多少事,而是公司如何定义任务、保存上下文、设置验收点,以及重新分配人的判断力。 本期会聊到 00:04|为什么“AI 让执行变快”不等于“公司里的事变少”。 01:23|Dan Shipper 说 automation is a lie:工作没有消失,只是从执行层转移到定义层。 02:33|PM 和设计师为什么不会简单消失,但只做低层交付的角色会被重新定价。 03:40|Agent 不是员工,却会占用管理带宽:上下文、权限、反馈和验收都要重新设计。 05:06|公司里的 super-agent 真正难点不是聊天,而是成为组织记忆的接口。 06:14|人才结构会怎么变:最值钱的是把客户问题、产品判断和技术实现接起来的人。 07:38|国内团队可以先做的四件事:任务分层、验收标准、中间过程、管理者的新工作。 09:13|AI 提效之后,真正稀缺的是人和 AI、速度和责任、个人效率和组织记忆之间的接口。 10:14|给正在推进 AI 落地团队的一个问题:自动化之后,谁来定义目标、保存上下文、验收结果? 来源说明 本期参考 Lenny's Podcast: Product | Career | Growth 的 The AI paradox: More automation, more humans, more work | Dan Shipper(2026-05-24)。原节目链接:https://www.lennysnewsletter.com/p/the-ai-paradox-dan-shipper 本期是基于公开页面与 show notes 的中文化转译和评论,不是逐字翻译。
EP20|别再给 AI 填表了:往上一层指挥它* 00:00:00 如果你现在还在把 AI 当成一个更聪明的聊天框,可能已经低估了它下一步的变化。真正重要的不是“AI 又能做什么炫技”,而是我们能不能把日常里的材料、界面和动作,重新组织成 AI 可以理解、可以执行、也可以被人类审阅的工作流。 这一期聊 Anthropic 工程负责人 Felix Rieseberg 的 Claude Cowork 使用案例:从二维房屋平面图生成三维漫游,到用邮件做个人物品数据库,再到用一个 20 美元硬件按钮批准 Claude 动作。听完你会理解:下一阶段会用 AI 的人,不是更会填提示词的人,而是更会定义目标、交出上下文、设计边界的人。 本期会聊到: 00:04 为什么这期不是工具演示,而是一个新的工作原则:不要把自己变成 AI 的数据录入员; 00:49 Felix Rieseberg 的背景,以及 Claude Cowork / Claude Code Desktop 为什么值得观察; 01:44 从 2D 平面图到 3D 房屋漫游:AI 让“一次性界面”变便宜了; 03:01 “往上一层抽象”:不要手动输入 AI 本来可以自己找到的信息; 04:29 Opus 和 Sonnet 的选择,不是看任务高级不高级,而是看不确定性留给谁; 05:53 Live artifacts:为什么动态界面可能比静态答案更重要; 07:09 20 美元硬件按钮背后的问题:当 AI 能行动,人类批准点应该放在哪里; 09:26 给国内团队的三个练习:少搬运、多生成界面、明确批准边界。 核心判断: AI 原生工作流不是“多装几个工具”,而是把材料收集、界面生成和行动批准重新分配:AI 负责找材料和搭对象,人负责目标、边界与判断。 来源说明 本期参考公开访谈与资料整理,主要包括 Lenny's Podcast / How I AI 于 2026-05-25 发布的 Felix Rieseberg 访谈:How the engineer behind Claude Cowork actually uses Claude | Felix Rieseberg (Anthropic)。内容为中文导读、摘要与评论,不是原节目逐字翻译,也不替代原节目。 Source URL: https://www.lennysnewsletter.com/p/how-the-engineer-behind-claude-cowork
EP19|AI 越自动,人越忙|Dan Shipper 的组织悖论团队上了 AI 之后,最尴尬的变化可能不是“人被替掉”,而是大家突然更忙了:初稿更多、方案更多、原型更多,连评审和对齐也一起膨胀。 这期我们借 Dan Shipper 在一场海外产品访谈里的判断,聊一个非常适合国内团队自检的问题:当 AI 把执行成本压低以后,真正昂贵的东西会变成什么?答案不是“会不会用工具”,而是问题定义、验收标准、审阅、收敛和责任边界。 本期会聊到: 00:04 为什么 AI 越自动化,团队反而可能越忙; 00:31 Dan Shipper 和 Every 这个高 AI 密度团队,为什么适合作为早期样本; 01:33 自动化不是消灭复杂度,而是把复杂度从执行层搬到判断层; 02:44 PM 为什么不会因为 AI 写 PRD 就失去价值,反而更需要定义问题和收束目标; 03:56 设计师的价值如何从“交付稿件”转向贯穿问题、体验、原型和实现边界; 04:38 forward deployed engineer 为什么会成为关键:AI 会写代码,但不懂业务现场; 05:36 CLI 会过去:agent 会进入 Slack、文档、浏览器和内部系统; 06:12 未来产品要同时服务人和 agent,而不只是服务单个用户; 06:52 “替代”不是全部,更大的变化是岗位名称还在,工作内容被重写; 07:50 团队真正要补的不是更多工具,而是 agent 任务、验收、审阅和回流纪律; 08:46 核心判断:AI 把工作从生产层迁移到了判断层; 09:06 国内团队推进 AI 前,应该先问的三个问题。 核心判断: AI 自动化不会自动让组织变简单。它会让初稿、原型、候选方案和代码生成变便宜,但也会制造更多需要判断、审阅、收敛和担责的半成品。未来最值钱的人,不一定是手最快的人,而是能把问题定义清楚、把 agent 管起来、把结果审成可交付成果的人。 来源说明: 本期参考公开访谈与资料整理,主要包括 Lenny's Podcast: Product | Career | Growth 于 2026-05-24 发布的 Dan Shipper 访谈:The AI paradox: More automation, more humans, more work | Dan Shipper。内容为中文导读、摘要与评论,不是原节目逐字翻译,也不替代原节目。