NovaAI笔记 | 小宇宙 - 听播客，上小宇宙

7已订阅

NovaAI笔记

Cyprien

单集更新

节目详情

EP08｜WhynotTV Danfei Xu：人类数据是机器人学习的底层燃料
基于 WhynotTV Podcast 2 小时访谈精华嘉宾: Danfei Xu，斯坦福助理教授本期简介斯坦福机器人学家 Danfei Xu 的核心赌注：人类第一人称视频数据将成为机器人学习的底层燃料，遥操作只是过渡阶段。这场 2 小时的深度访谈，Danfei 分享了他从太原初中生 tinkering 微控制器到斯坦福造机器人的全经历，拆解了 EgoMimic 项目的 0-1 过程，以及为什么 "人就是另一种机器人"。核心话题 * 太原初中生 tinkering 微控制器到斯坦福造机器人的全经历 * Fei-Fei 给绿灯：从 scene graphs 全速转向机器人学 * 为什么遥操作数据不完美——同一台机器人改个参数就失效 * "人就是另一种机器人"：人类数据作为底层燃料的核心论据 * EgoMimic 0-1 过程：Oculus+Leap Motion 失败 → Meta Aria 眼镜转折点 * 亲自去 Vention 买铝型材，造了一台双臂机器人 * 人类和世界互动的三层拆解：世界变化 → 物理交互 → 动作生成 * 全栈方法论：评估和训练闭环为什么不能外包 * 机器人学的 GPT-3 时刻：人能做的事，机器人 40-50% 成功率金句 "人就是另一种机器人。如果你在人身上装足够的传感器，基本上就是把人变成了一台机器人。" 相关链接 * 原始访谈：https://www.youtube.com/watch?v=__P5yygfRRQ * Danfei Xu Lab：https://sites.google.com/view/danfeixu
7分钟 · 7天前
1
0
EP07｜红杉AI Ascent 2026 开场主题演讲“没有领先是安全的，任何人都有机会赢”
核心摘要： Q1: 为什么 AI 与之前的云、移动浪潮不同？ A (Pat): AI 是三个维度上的不同。① 最大：不仅是软件（3500亿→6500亿 TAM），还包含服务市场（美国法律服务 alone 就是 4000 亿美元）；② 最快：从 ChatGPT 到 o1 到 Claude Code，能力涌现速度前所未有；③ 类型不同：之前的互联网/云/移动都是 "通信革命"（信息分发），而 AI 是 "计算革命"（信息处理）。 Q2: 这是不是 AGI？ A (Pat): Sequoia 不打算给 AGI 下技术定义——他们是经济专业的风险投资家。但从商业/功能角度，如果你能派遣一个智能体去完成任务，它能从失败中恢复并坚持到底，"那感觉就挺像 AGI 的"。Pat 的比喻：过去几年我们看到的都是 "更快的马"（效率提升 10-40%），现在我们看到了 "汽车"（效率提升 10-40 倍，根本改变工作方式）。 Q3: 在 AI 应用层创业，该怎么做？ A (Pat): 三个关键词缩写为 MAD——Modes（护城河）、Affordance（可用性）、Diffusion（扩散差距）。① Modes：在计算革命中，产品能力变化太快，围绕客户构建的护城河比技术护城河更持久；② Affordance：模型再强，如果普通财富 500 强员工打开终端束手无策，就需要有人为它做 "路径最小阻力" 的包装；③ Diffusion：能力扩散到市场的速度远慢于能力被创造的速度，这个差距就是应用层的机会。 Q4: 什么是 Agent？ A (Sonya): Agent 是感知环境、选择行动、自主朝着目标推进的系统。具体有三个功能组件：① 推理和规划（baseline 直觉 + 临场思考）；② 行动（工具：搜索、编写、编译、终端、Slack、网页浏览等）；③ 迭代朝向目标（持久性）。Agency 的本质就是 "把事情做完的能力"。 Q5: AutoGPT 为什么当年失败了，现在却能成功？ A (Sonya): 2022 年的 AutoGPT/babyAGI 是把 GPT-3 包上工具塞进循环，然后看着它反复失败——可爱但没用。转折点在 2025-2026 年：模型终于能持续数小时在复杂任务上不脱轨。从几十分钟到几小时的 "meter chart" 跨越，是 Agent 时代到来的关键信号。 Q6: 两个最成功的产品是什么？它们说明了什么？ A (Sonya): Cloud Code（工程师）和 OpenClaw（普通用户）。这说明无论你是硬核工程师还是普通人，任何人现在都能创建 Agent。Agent 的民主化意味着 "服务就是新软件" 正在真正发生。 Q7: 人类会被取代吗？ A (Sonya): 不是取代，是分工重构。人类的优势是适应性。Agent 更容易雇佣（无限可扩展）、更便宜（付 tokens 而不是薪水）、更低维护。但 "人类连接" 才能赋予事物意义。她的结语：" hiring agents is so much easier than hiring employees." Q8: 工业革命和认知革命有什么相似性？ A (Constantine): 人类历史上几乎所有服务性劳动曾由肌肉完成。1700 年以来，机器逐步替代物理劳动，到今天地球上 99% 以上的物理劳动由机器完成。认知劳动遵循同样的模式——只是更早期。他预测在不久的将来，地球上 99.9% 的认知劳动将由机器完成。 Q9: AI 会让我们失业吗？（用艺术史回答） A (Constantine): 用摄影术对绘画的冲击来类比。19 世纪摄影术出现后，人们以为绘画完了——机器比人类画得更像。但人类没有死磕写实，而是转向了印象派、表现主义、立体主义——追求 "眼睛看到的" 之外的 "心灵看到的"。AI 能做工作，但只有人类连接能赋予意义。原视频：https://www.youtube.com/watch?v=LRo33rnv6rQ
10分钟 · 7天前
2
0
EP05｜红杉2026 DeepMind Demis Hassabis：我们离 AGI 还有多远？
DeepMind 创始人兼 CEO Demis Hassabis 在 Sequoia AI Ascent 2026 上给出了一个明确的 AGI 时间预测：2030 年。这不是随口一说，而是基于他 2010 年定下的 "20 年任务" 路线图——从 DeepMind 创立到今天，他认为整个 AI 领域基本按时间表在推进，现在已经走了四分之三。本期节目，我们聚焦 Hassabis 对 AI 未来最核心的几个判断：AI for Science 为什么是他最兴奋的终局方向？经典图灵机是否已经能建模量子系统？机器学习为什么是生物学的 "完美描述语言"？以及他为什么说 "信息可能比能量和物质更根本"。原视频：https://www.youtube.com/watch?v=AFpeWo1GTeg
7分钟 · 7天前
2
0
EP06｜红杉2026 Jim Fan：机器人学的终局已至
NVIDIA 机器人学负责人 Jim Fan 在 Sequoia AI Ascent 2026 上的这场 20 分钟演讲，被他自己称为 "机器人学的终局宣言"。他的核心主张非常大胆：机器人学的玩法书已经写好了——直接抄 LLM 的作业，把字符串模拟换成物理世界模拟，终点就在 2040 年。本期节目，我们来逐段拆解 Jim 提出的 "大平行理论"（The Great Parallel）：为什么视频世界模型将取代 VLA 成为机器人学的新基础，为什么自我中心视频（egocentric video）将取代遥操作成为数据主粮，以及为什么他敢给出 "2-3 年内通过物理图灵测试" 的时间预测。嘉宾简介 Jim Fan，NVIDIA 具身智能与自主研究组（NVIDIA Robotics）负责人。2016 年以实习生身份加入 OpenAI，在 DGX1 揭幕现场与 Andrej Karpathy 一起排队签名。他领导的研究涵盖视频世界模型、世界动作模型（DreamZero）、灵巧操作数据策略（EgoScale / DexOoi）和大规模神经仿真（DreamDojo）。本期亮点大平行理论：抄 LLM 的作业 Jim 把 LLM 的三步演进（预训练 → 对齐 → 自动研究）完整映射到机器人学。不是模拟字符串，而是模拟下一个物理世界状态。世界模型替代语言模型，自我中心视频替代遥操作，世界动作模型（WAM）替代 VLA。 VLA 为什么死了？ Jim 的批评毫不留情：VLA 本质上是 VLM 加了一个动作头，参数大部分花在语言上，语言是一等公民，视觉和动作是二等公民。他引用 VLA 原始论文的 "Taylor Swift 可乐罐" 例子，讽刺这根本不是预训练该有的泛化能力。他给 VLA 的墓志铭："长眠吧 VLA，世界动作模型万岁。" Physics Slop：垃圾视频里的世界模型 Sora 看起来是 AI 视频娱乐，但 Jim 指出它内部已经学会了重力、浮力、光照、反射、折射——没有任何物理代码写进去，物理是通过大规模预测像素涌现出来的。他甚至展示 Sora 在像素空间里用模拟来解迷宫。 DreamZero：视频预测对了，动作就对了 DreamZero 是世界动作模型（World Action Model），同时解码下一个世界状态和下一个动作。Jim 发现视频预测与动作预测高度相关——视频预测对了动作就对，视频幻觉了动作就失败。这意味着可以通过视觉来诊断和控制机器人策略质量。数据三级跳：遥操作 → 可穿戴 → 自我中心视频遥操作每台机器人每天最多 3 小时，上限锁死。可穿戴手套（UMI / DexOoi）把人类手部直接接入数据采集。EgoScale 用 21,000 小时人类野外视频做预训练，零机器人数据，动作微调只用 4 小时遥操作。更惊人的是：灵巧性存在干净的神经扩展律——这是 LLM 扩展律六年后首次在机器人学被复现。 DreamDojo：iPhone 就是口袋世界扫描仪用 iPhone 扫描物理环境 → 自动合成到经典物理模拟器 → 无限增强 "数字表亲" 变体。更进一步，DreamDojo 把视频世界模型变成纯神经模拟器：没有真实像素，没有物理方程，没有图形引擎，输入动作输出下一帧。 🎯 终局三成就与 2030 年时间线 Jim 用《文明》技术树来比喻：① 物理图灵测试（2-3 年内）；② 物理 API + 原子打印机式全自动工厂；③ 物理自动研究——机器人自己造下一代机器人。从 AlexNet 到 AI Ascent 只用了 14 年，再加 14 年到 2040 年，95% 置信度。
8分钟 · 7天前
2
0
NovaAI笔记播客第四期：Harrison Chase 上下文工程与长时程智能体的崛起
本期探讨长时程智能体的崛起。基于 LangChain 创始人兼 LangSmith CEO Harrison Chase 的深度分享，讨论了智能体从理论走向实践的关键经验。访谈发布于 2026 年 1 月。核心观点： * 驾驭系统是关键，预设最佳实践降低开发门槛 * 文件系统提供外挂内存，上下文卸载是规模化核心 * 开发模式从读代码变成看 Trace，Trace 成为协作中心 * 评估智能体需要 LLM as Judge，但先要通过人类标注校准 * 自我改进让智能体在睡眠中学习，递归式改进潜力巨大 * 编程智能体可能是通用的，但通用智能体需要综合能力相关资源： * Harrison Chase: hwchase17 - Overview * LangChain: langchain.com * LangSmith: smith.langchain.com
13分钟 · 2个月前
5
0
NovaAI笔记播客第三期：多智能体时代谈Openclaw、Manus等多Agent架构和使用体验
最近我把 Manus、OpenClaw、Perplexity Computer 和 Claude Code 都深度用了一遍，这期聊聊我的真实感受。不是横评，是我作为一个每天真正在用这些工具做信息查询、自动化任务、工作脑暴的用户，写下来的观察。这期你会听到： - 为什么 Manus 更适合"扔给它一个任务、拿结果"，OpenClaw 更适合"深度折腾、自己配" - Perplexity Computer 的 19 个模型是怎么分工的，和 Manus 有什么本质区别 - Claude Code 为什么在"业务灵性"上差一点，它适合做什么 - 什么时候一个 Agent 够用，什么时候必须上多 Agent 架构 - Agent Harness 是什么，为什么它可能是 Agent 大众化的关键拼图提到的产品： Manus · OpenClaw · Perplexity Computer · Claude Code 参考资料： LangChain 创始人 Harrison Chase 在红杉 2026 年 1 月访谈中提出的 Agent Harness 概念
8分钟 · 2个月前
9
0
NovaAI笔记播客第二期：AI Agent 经济正在到来
本期探讨 AI Agent 经济的崛起。Y Combinator Lightcone 播客讨论了 AI Agent 正在成为经济主体，自主选择工具和服务。访谈发布于 2026 年 2 月。核心观点： * AI Agent 经济已经到来，不再是概念，而是正在发生的现实开发者市场正在扩大，从专业人士扩展到所有人 * Agent 会自主选择工具，开发者工具市场规则要重写 * 文档成为入口，面向 Agent 的优化会成为新竞争力 * MoltBook 展示了 Agent 群体协作的可能性 * 基础设施层公司正在快速崛起 * Agent 专属服务会出现，邮箱、电话只是开始 * 群体智能可能带来全新的产品形态和商业机会原视频：www.youtube.com频道：Y Combinator Lightcone Podcast
11分钟 · 2个月前
9
0
NovaAI播客第一期：Dario Amodei 谈"我们正接近指数增长的终点"
本期解读 Anthropic CEO Dario Amodei 接受 Dwarkesh Patel 采访的核心观点。访谈发布于 2026 年 2 月 13 日。核心观点： * 我们正接近 AI 能力指数增长的终点 * AGI 时间线预测：10 年内 90% 把握，直觉 1-3 年就能实现——AI 将达到受过良好教育的人类水平，某些领域超越诺贝尔奖得主 * AI 编写代码的比例很快会从 90% 到 100%，但不等于程序员失业 * 技术落地有摩擦：组织惯性、安全审查、流程变更都需要时间 * 支持芯片出口管制，担心 AI 被威权政权用于压迫人民 * Anthropic 文化秘诀：每两周全员演讲，透明直接不打官腔原视频：www.youtube.com 频道：Dwarkesh Patel
12分钟 · 3个月前
13
0

聚焦AI前沿大佬的访谈、个人成长、Vibecoding实战