

EP08|WhynotTV Danfei Xu:人类数据是机器人学习的底层燃料基于 WhynotTV Podcast 2 小时访谈精华 嘉宾: Danfei Xu,斯坦福助理教授 本期简介 斯坦福机器人学家 Danfei Xu 的核心赌注:人类第一人称视频数据将成为机器人学习的底层燃料,遥操作只是过渡阶段。这场 2 小时的深度访谈,Danfei 分享了他从太原初中生 tinkering 微控制器到斯坦福造机器人的全经历,拆解了 EgoMimic 项目的 0-1 过程,以及为什么 "人就是另一种机器人"。 核心话题 * 太原初中生 tinkering 微控制器到斯坦福造机器人的全经历 * Fei-Fei 给绿灯:从 scene graphs 全速转向机器人学 * 为什么遥操作数据不完美——同一台机器人改个参数就失效 * "人就是另一种机器人":人类数据作为底层燃料的核心论据 * EgoMimic 0-1 过程:Oculus+Leap Motion 失败 → Meta Aria 眼镜转折点 * 亲自去 Vention 买铝型材,造了一台双臂机器人 * 人类和世界互动的三层拆解:世界变化 → 物理交互 → 动作生成 * 全栈方法论:评估和训练闭环为什么不能外包 * 机器人学的 GPT-3 时刻:人能做的事,机器人 40-50% 成功率 金句 "人就是另一种机器人。如果你在人身上装足够的传感器,基本上就是把人变成了一台机器人。" 相关链接 * 原始访谈:https://www.youtube.com/watch?v=__P5yygfRRQ * Danfei Xu Lab:https://sites.google.com/view/danfeixu
EP07|红杉AI Ascent 2026 开场主题演讲“没有领先是安全的,任何人都有机会赢”核心摘要: Q1: 为什么 AI 与之前的云、移动浪潮不同? A (Pat): AI 是三个维度上的不同。① 最大:不仅是软件(3500亿→6500亿 TAM),还包含服务市场(美国法律服务 alone 就是 4000 亿美元);② 最快:从 ChatGPT 到 o1 到 Claude Code,能力涌现速度前所未有;③ 类型不同:之前的互联网/云/移动都是 "通信革命"(信息分发),而 AI 是 "计算革命"(信息处理)。 Q2: 这是不是 AGI? A (Pat): Sequoia 不打算给 AGI 下技术定义——他们是经济专业的风险投资家。但从商业/功能角度,如果你能派遣一个智能体去完成任务,它能从失败中恢复并坚持到底,"那感觉就挺像 AGI 的"。Pat 的比喻:过去几年我们看到的都是 "更快的马"(效率提升 10-40%),现在我们看到了 "汽车"(效率提升 10-40 倍,根本改变工作方式)。 Q3: 在 AI 应用层创业,该怎么做? A (Pat): 三个关键词缩写为 MAD——Modes(护城河)、Affordance(可用性)、Diffusion(扩散差距)。① Modes:在计算革命中,产品能力变化太快,围绕客户构建的护城河比技术护城河更持久;② Affordance:模型再强,如果普通财富 500 强员工打开终端束手无策,就需要有人为它做 "路径最小阻力" 的包装;③ Diffusion:能力扩散到市场的速度远慢于能力被创造的速度,这个差距就是应用层的机会。 Q4: 什么是 Agent? A (Sonya): Agent 是感知环境、选择行动、自主朝着目标推进的系统。具体有三个功能组件:① 推理和规划(baseline 直觉 + 临场思考);② 行动(工具:搜索、编写、编译、终端、Slack、网页浏览等);③ 迭代朝向目标(持久性)。Agency 的本质就是 "把事情做完的能力"。 Q5: AutoGPT 为什么当年失败了,现在却能成功? A (Sonya): 2022 年的 AutoGPT/babyAGI 是把 GPT-3 包上工具塞进循环,然后看着它反复失败——可爱但没用。转折点在 2025-2026 年:模型终于能持续数小时在复杂任务上不脱轨。从几十分钟到几小时的 "meter chart" 跨越,是 Agent 时代到来的关键信号。 Q6: 两个最成功的产品是什么?它们说明了什么? A (Sonya): Cloud Code(工程师)和 OpenClaw(普通用户)。这说明无论你是硬核工程师还是普通人,任何人现在都能创建 Agent。Agent 的民主化意味着 "服务就是新软件" 正在真正发生。 Q7: 人类会被取代吗? A (Sonya): 不是取代,是分工重构。人类的优势是适应性。Agent 更容易雇佣(无限可扩展)、更便宜(付 tokens 而不是薪水)、更低维护。但 "人类连接" 才能赋予事物意义。她的结语:" hiring agents is so much easier than hiring employees." Q8: 工业革命和认知革命有什么相似性? A (Constantine): 人类历史上几乎所有服务性劳动曾由肌肉完成。1700 年以来,机器逐步替代物理劳动,到今天地球上 99% 以上的物理劳动由机器完成。认知劳动遵循同样的模式——只是更早期。他预测在不久的将来,地球上 99.9% 的认知劳动将由机器完成。 Q9: AI 会让我们失业吗?(用艺术史回答) A (Constantine): 用摄影术对绘画的冲击来类比。19 世纪摄影术出现后,人们以为绘画完了——机器比人类画得更像。但人类没有死磕写实,而是转向了印象派、表现主义、立体主义——追求 "眼睛看到的" 之外的 "心灵看到的"。AI 能做工作,但只有人类连接能赋予意义。 原视频:https://www.youtube.com/watch?v=LRo33rnv6rQ
EP05|红杉2026 DeepMind Demis Hassabis:我们离 AGI 还有多远?DeepMind 创始人兼 CEO Demis Hassabis 在 Sequoia AI Ascent 2026 上给出了一个明确的 AGI 时间预测:2030 年。这不是随口一说,而是基于他 2010 年定下的 "20 年任务" 路线图——从 DeepMind 创立到今天,他认为整个 AI 领域基本按时间表在推进,现在已经走了四分之三。 本期节目,我们聚焦 Hassabis 对 AI 未来最核心的几个判断:AI for Science 为什么是他最兴奋的终局方向?经典图灵机是否已经能建模量子系统?机器学习为什么是生物学的 "完美描述语言"?以及他为什么说 "信息可能比能量和物质更根本"。 原视频:https://www.youtube.com/watch?v=AFpeWo1GTeg
EP06|红杉2026 Jim Fan:机器人学的终局已至NVIDIA 机器人学负责人 Jim Fan 在 Sequoia AI Ascent 2026 上的这场 20 分钟演讲,被他自己称为 "机器人学的终局宣言"。他的核心主张非常大胆:机器人学的玩法书已经写好了——直接抄 LLM 的作业,把字符串模拟换成物理世界模拟,终点就在 2040 年。 本期节目,我们来逐段拆解 Jim 提出的 "大平行理论"(The Great Parallel):为什么视频世界模型将取代 VLA 成为机器人学的新基础,为什么自我中心视频(egocentric video)将取代遥操作成为数据主粮,以及为什么他敢给出 "2-3 年内通过物理图灵测试" 的时间预测。 嘉宾简介 Jim Fan,NVIDIA 具身智能与自主研究组(NVIDIA Robotics)负责人。2016 年以实习生身份加入 OpenAI,在 DGX1 揭幕现场与 Andrej Karpathy 一起排队签名。他领导的研究涵盖视频世界模型、世界动作模型(DreamZero)、灵巧操作数据策略(EgoScale / DexOoi)和大规模神经仿真(DreamDojo)。 本期亮点 大平行理论:抄 LLM 的作业 Jim 把 LLM 的三步演进(预训练 → 对齐 → 自动研究)完整映射到机器人学。不是模拟字符串,而是模拟下一个物理世界状态。世界模型替代语言模型,自我中心视频替代遥操作,世界动作模型(WAM)替代 VLA。 VLA 为什么死了? Jim 的批评毫不留情:VLA 本质上是 VLM 加了一个动作头,参数大部分花在语言上,语言是一等公民,视觉和动作是二等公民。他引用 VLA 原始论文的 "Taylor Swift 可乐罐" 例子,讽刺这根本不是预训练该有的泛化能力。他给 VLA 的墓志铭:"长眠吧 VLA,世界动作模型万岁。" Physics Slop:垃圾视频里的世界模型 Sora 看起来是 AI 视频娱乐,但 Jim 指出它内部已经学会了重力、浮力、光照、反射、折射——没有任何物理代码写进去,物理是通过大规模预测像素涌现出来的。他甚至展示 Sora 在像素空间里用模拟来解迷宫。 DreamZero:视频预测对了,动作就对了 DreamZero 是世界动作模型(World Action Model),同时解码下一个世界状态和下一个动作。Jim 发现视频预测与动作预测高度相关——视频预测对了动作就对,视频幻觉了动作就失败。这意味着可以通过视觉来诊断和控制机器人策略质量。 数据三级跳:遥操作 → 可穿戴 → 自我中心视频 遥操作每台机器人每天最多 3 小时,上限锁死。可穿戴手套(UMI / DexOoi)把人类手部直接接入数据采集。EgoScale 用 21,000 小时人类野外视频做预训练,零机器人数据,动作微调只用 4 小时遥操作。更惊人的是:灵巧性存在干净的神经扩展律——这是 LLM 扩展律六年后首次在机器人学被复现。 DreamDojo:iPhone 就是口袋世界扫描仪 用 iPhone 扫描物理环境 → 自动合成到经典物理模拟器 → 无限增强 "数字表亲" 变体。更进一步,DreamDojo 把视频世界模型变成纯神经模拟器:没有真实像素,没有物理方程,没有图形引擎,输入动作输出下一帧。 🎯 终局三成就与 2030 年时间线 Jim 用《文明》技术树来比喻:① 物理图灵测试(2-3 年内);② 物理 API + 原子打印机式全自动工厂;③ 物理自动研究——机器人自己造下一代机器人。从 AlexNet 到 AI Ascent 只用了 14 年,再加 14 年到 2040 年,95% 置信度。
NovaAI笔记播客第四期:Harrison Chase 上下文工程与长时程智能体的崛起本期探讨长时程智能体的崛起。基于 LangChain 创始人兼 LangSmith CEO Harrison Chase 的深度分享,讨论了智能体从理论走向实践的关键经验。 访谈发布于 2026 年 1 月。 核心观点: * 驾驭系统是关键,预设最佳实践降低开发门槛 * 文件系统提供外挂内存,上下文卸载是规模化核心 * 开发模式从读代码变成看 Trace,Trace 成为协作中心 * 评估智能体需要 LLM as Judge,但先要通过人类标注校准 * 自我改进让智能体在睡眠中学习,递归式改进潜力巨大 * 编程智能体可能是通用的,但通用智能体需要综合能力 相关资源: * Harrison Chase: hwchase17 - Overview * LangChain: langchain.com * LangSmith: smith.langchain.com
NovaAI笔记播客第三期:多智能体时代谈Openclaw、Manus等多Agent架构和使用体验最近我把 Manus、OpenClaw、Perplexity Computer 和 Claude Code 都深度用了一遍,这期聊聊我的真实感受。 不是横评,是我作为一个每天真正在用这些工具做信息查询、自动化任务、工作脑暴的用户,写下来的观察。 这期你会听到: - 为什么 Manus 更适合"扔给它一个任务、拿结果",OpenClaw 更适合"深度折腾、自己配" - Perplexity Computer 的 19 个模型是怎么分工的,和 Manus 有什么本质区别 - Claude Code 为什么在"业务灵性"上差一点,它适合做什么 - 什么时候一个 Agent 够用,什么时候必须上多 Agent 架构 - Agent Harness 是什么,为什么它可能是 Agent 大众化的关键拼图 提到的产品: Manus · OpenClaw · Perplexity Computer · Claude Code 参考资料: LangChain 创始人 Harrison Chase 在红杉 2026 年 1 月访谈中提出的 Agent Harness 概念
NovaAI笔记播客第二期:AI Agent 经济正在到来本期探讨 AI Agent 经济的崛起。Y Combinator Lightcone 播客讨论了 AI Agent 正在成为经济主体,自主选择工具和服务。 访谈发布于 2026 年 2 月。 核心观点: * AI Agent 经济已经到来,不再是概念,而是正在发生的现实开发者市场正在扩大,从专业人士扩展到所有人 * Agent 会自主选择工具,开发者工具市场规则要重写 * 文档成为入口,面向 Agent 的优化会成为新竞争力 * MoltBook 展示了 Agent 群体协作的可能性 * 基础设施层公司正在快速崛起 * Agent 专属服务会出现,邮箱、电话只是开始 * 群体智能可能带来全新的产品形态和商业机会 原视频:www.youtube.com频道:Y Combinator Lightcone Podcast
NovaAI播客第一期:Dario Amodei 谈"我们正接近指数增长的终点"本期解读 Anthropic CEO Dario Amodei 接受 Dwarkesh Patel 采访的核心观点。 访谈发布于 2026 年 2 月 13 日。 核心观点: * 我们正接近 AI 能力指数增长的终点 * AGI 时间线预测:10 年内 90% 把握,直觉 1-3 年就能实现——AI 将达到受过良好教育的人类水平,某些领域超越诺贝尔奖得主 * AI 编写代码的比例很快会从 90% 到 100%,但不等于程序员失业 * 技术落地有摩擦:组织惯性、安全审查、流程变更都需要时间 * 支持芯片出口管制,担心 AI 被威权政权用于压迫人民 * Anthropic 文化秘诀:每两周全员演讲,透明直接不打官腔 原视频:www.youtube.com 频道:Dwarkesh Patel