

AnyTouch2:解决触觉三大痛点,金字塔数据+分层训练00:01:37 动态触觉领域三大核心痛点 * 数据缺乏连续时序与力值标注 * 模型无法预判力变与打滑 * 传感器兼容性差 00:03:17 触觉表征方案的局限 * 数据侧重静态属性 * 动作单一 * 常规视觉模型难以适配触觉形变特征 00:05:04 TouchHD金字塔数据 * T5(纯按压数据) * T4(随机动作数据) * T3(指定动作数据) * T2(操控动作数据) * T1(力关联数据) 00:06:49 递进式整体训练框架 * 00:08:04 像素级训练 * 掩码像素重建损失函数 * 掩码像素帧间误差损失函数 * 00:09:37 语义级训练 * 多模态对齐 * 视觉&触觉,文本&触觉双向对齐 * 物体匹配 * 正样本相似度计算:同物体不同传感器 * 负样本相似度计算:不同物体 * 动作匹配 * 正样本相似度计算:同动作不同传感器 * 负样本相似度计算:不同动作 * 00:12:35 物理交互级训练 * 3D接触力预测损失 + 帧间3D接触力力差损失 * 00:13:20 总体训练框架 * 先学习像素级特征,再线形学习对齐,匹配,力交互 论文指路:AnyTouch 2: General Optical Tactile Representation Learning For Dynamic Tactile Perception 这一期背景音乐只是随便挑了一下,但是莫名很好听(April Sky),网易云上的中文翻译歌词也很妙(英文没咋看,但感觉没那味儿): 时间记录了我们的全部~ 年年岁岁花相似,岁岁年年人不同~
拆解苏黎世理工绳驱ORCA灵巧手:解决绳驱天然缺陷00:01:50 ORCA Hand 为什么火? 8小时完成组装 + 低成本 + 高灵巧度 + 长时间稳定运行 00:02:20 当前灵巧手有哪些路线? 绳驱:Shadow Hand,InMoov 直驱 / 准直驱方案:LEAP Hand 00:03:31 ORCA 的核心机械设计 * 全 3D 打印结构 * 棘轮式张力调节 * 金属导销 * 特氟龙导管 00:08:31 防撞关节 & 手指设计 * 可弹开式安全关节 * 取消最末端独立驱动 00:10:28 手腕 & 触觉方案 * 仅保留手腕屈伸自由度 * 使用同步带而非 tendon 驱动 * 触觉使用 FSR 压力传感器:只检测:“是否接触”,而不是精准测力 00:13:21 ORCA 最有意思的部分:自动标定 * 没有额外角度传感器 * 重新计算手指关节角度&电机角度的比例系数 论文:ORCA: An Open-Source, Reliable, Cost-Effective, Anthropomorphic Robotic Hand for Uninterrupted Dexterous Task Learning 春天到啦啦啦,大家要出门踏踏青喔!!!看我拍的fafa
400美金低成本灵巧手样机,准直驱动技术全解析00:01:13 为什么最近大家都在关注灵巧手? * Sharpa灵巧手 * 从高端方案到低成本路线,寻找可量产解法 00:02:40 传统机械手的问题在哪里? * 大减速比齿轮方案:力量足,但回驱性差 * 依赖力传感器:反馈存在延迟 * 面对人机交互、柔软物体、不规则物体时表现受限 00:04:17 这篇文章的创新点 * Quasi-Direct-Drive(准直驱) * Impedance Control(阻抗控制) * Differential Mechanism(差动结构) 00:06:50 理论框架和机械结构 * 机械结构 * 两台电机驱动两根手指 * 使用差动齿轮结构分配扭矩 * 手部结构大量采用3D打印件 * 电机转动角度&关节转动角度映射关系 * 差动齿轮结构 * 指尖位置误差&关节扭矩映射关系 * 指尖阻抗控制 * 虚拟弹簧&阻尼 * 关节位置误差&关节扭矩映射关系 * 关节阻抗控制 * 关节力矩&电机力矩映射关系 * 差动齿轮结构 00:11:22 双层控制系统 外层控制: * 根据目标指尖位置/关节角度 * 计算需要的关节力矩 内层控制: * 使用FOC磁场定向控制 * 精准调节电机电流 实现目标扭矩输出 00:17:33 方案实现效果 * 指尖输出力约 8.2N * 受外界干扰时不易脱手 * 成本约 400美元 所以是非常有现实意义的开源方向~ 00:19:47 为什么这样的技术路线值得关注呢 相比堆硬件的高端灵巧手,这种路线更像现实答案: * 更低成本 * 更易量产 * 更适合机器人商业落地 * 控制思路先进 论文指路:Development of a Novel Impedance-Controlled Quasi-Direct-Drive Robotic Hand 大家有什么想法都可以再评论区讨论喔!!!
从MIT猎豹到宇树四足机器人:揭秘宇树顶级关节模组密码01:10 一个10万美元的问题:机器狗到底贵在哪? 02:15 动物能力的工程映射:三大核心矛盾 * 爆发力(高扭矩) * 反应速度(高带宽控制) * 冲击缓冲(抗冲击能力) 03:30 传统控制的局限:为什么“等传感器反馈”太慢? * 经典控制链路(触地→检测→反馈→输出) * MIT方案:关节直接控力(Proprioceptive Actuation) 07:35 决定一切的隐藏变量:转动惯量 * 简化模型(质量 / 腿 / 执行器 / 弹簧) * 实验结论:转动惯量是核心变量 * 有弹簧 vs 无弹簧:10Hz vs 80Hz 09:30 IMF指标:机器人“抗摔能力”的第一次量化 * 什么是IMF(Impact Mitigation Factor) * IMF = 0 vs IMF = 0.8 的意义 * 行业意义:第一次有统一标准 10:28 一个反直觉结论:弹簧并不能减少冲击 * 只能改变“时间分布” * 不能减少“总冲击量” 11:12 关键设计策略:大半径 + 低减速比 * gap radius(气隙半径)决定扭矩 * 大半径 → 高扭矩 * 低减速比 → 低惯量 + 高回驱性 13:33 MIT是怎么设计的? * 电机升级(9 → 27 Nm/kg) * 齿轮比:1比5.8(远低于工业机器人) * 结构设计:重心上移、腿部极轻 16:14 机器狗贵的不是“聪明”,而是“物理极限” * 贵在:低惯量设计 高扭矩密度电机 精密减速器 论文指路:Proprioceptive Actuator Design in the MIT Cheetah: Impact Mitigation and High-Bandwidth Physical Interaction for Dynamic Legged Robots code: mit-biomimetics / Cheetah-Software Public
Seedance:AI视频的终点,不是素材,而是影视作品01:05 整期概述 * 数据、架构、后训练、加速、评测体系、模型对比 01:39 核心能力 * 中文语音(方言 + 情绪) * 人物一致性(不变脸 + 口型同步) * 运镜能力(复杂镜头) * 叙事能力(自动补全故事) * 表演能力(戏曲 + 微表情) 04:49 数据 * 音画同步 * 动作丰富 * 难度分级 * 精细标注(画面 + 音频 + 情绪) 06:20 模型架构(MMDiT) * 音频 + 视频联合建模 * 时间轴对齐 * 支持多输入生成(text / image) 07:14 后训练 * 高质量数据微调(电影 / MV) * RLHF 提升质量与情绪 07:47 推理加速 * 蒸馏(大模型 → 小模型) * 减少扩散步骤 * 量化 / 并行(≈10×提速) 08:50 新评测体系 * Seed Video Bench 1.5 * 视频评测 * Video-Vidvidness(活人感) * 表情 / 动作 / 运镜 / 互动 * 解决“AI视频不真实”问题 * 音频评测 * 指令一致 * 音质 * 音画同步 * 情绪表达 11:31 模型对比 * 中文语音:优于 Google Veo * 音画同步:优于 Google Veo,Kling 2.6 * 情绪表达:比 OpenAI Sora 更克制(更适合商业) 13:34 总结 大家快去试试吧~ 论文指路:Seedance 1.5 pro: A Native Audio-Visual Joint Generation Foundation Model
英伟达在布局什么?DreamZero让视频扩散模型提速38倍?人类视频=机器人训练数据?00:29 Nvidia宏观生态 * Omniverse(虚拟世界建模) * Cosmos World Foundation Model(多样化场景生成) * GPU / DGX 训练 * Jetson 部署 01:48 DreamZero五大核心贡献 * 预测未来视频 + 动作 * 泛化性提升 * 38× 推理加速 * 人类视频 → 机器人跨身体迁移 * 开源 03:59 Discussion * Scaling law 在世界动作模型中是否存在 * 人类视频是否可用 * 速度是否够快 * 如何突破记忆长度 6 秒限制 * WAM高精度操作能力 * 人形机器人是否更优 07:46 三大核心挑战 * 视频–动作对齐 * 双向 vs 自回归架构选择 * 推理太慢 10:20 模型架构拆解 * 输入输出结构 * Joint Video-Action DiT * 真实观测替换 自回归 + KV cache 预测结果 * 损失函数:共享t_k * Teacher Forcing 17:12 推理加速 * 异步执行结构 * 系统级优化:CFG 并行 / DiT cache * Dream Zero Flash利用去耦噪声的超强升级版 论文指路:https://dreamzero0.github.io/DreamZero.pdf
李飞飞PointWorld:机器人世界模型里程碑?机器人不用训练就能干活了?机器人终于学会“理解世界”了?00:59 为什么 PointWorld 这么火? * Zero-shot 世界模型 * 不需要任务微调、人工演示或 reward 设计 * 只需预训练世界模型 + MPC 即可控制机器人 02:13 模型输入 State Representation * 静态环境点云 * 每个点包含 3D位置 + 特征向量 Action Representation * 机器人动作序列 * 转化为机器人表面点的运动 05:58 模型预测 * 环境点云 + 机器人轨迹点云直接拼接 * 使用 backbone 学习交互关系 * 一次 forward 预测多个时间步的点位移 * 推理速度远快于 diffusion 世界模型 08:20 训练目标 损失函数主要包含四部分: * Movement Weight:强调动态点 * 3D Residual:位移误差 * Uncertainty Weight:置信度加权 * Uncertainty Regularization:防止模型作弊 10:47 机器人控制 核心流程: * 初始化轨迹 * 采样扰动轨迹 * 用 PointWorld 预测未来环境 * 计算任务代价和控制代价 * 更新最优轨迹 13:14 数据与3D重建流水线 3D重建流水线: * 使用 Foundation Stereo 提升深度精度 * 优化相机外参(VGGT) * 使用 CoTracker3 解决像素追踪与遮挡问题 16:11 总结 论文指路:PointWorld: Scaling 3D World Models for In-The-Wild Robotic Manipulation code:github.com
斯坦福顶尖具身智能赛事Behavior Challenge 2025冠军方案详解00:12 比赛介绍 00:58 比赛难点 02:50 模型整体架构 模型优化 * 03:57 任务嵌入替代自然语言描述 * 04:23 融合任务阶段与阶段信息 * 06:22 动态适配动作专家对视觉语言特征 * 07:51 设计增量动作空间 + 每时间步归一化 训练优化 * 08:49 噪声基于动作时序与关节协同关系建模 * 10:43 多样本 Flow Matching 单次跑vlm前向训练方式 * 11:29 多任务训练与任务特化微调训练策略 推理优化 * 12:46 长时程动作序列平滑机制 * 15:47 通过cubic spline interpolation压缩动作提速 * 17:55 在线跟踪与投票逻辑稳定任务 * 20:12 针对常见失败模式的轻量级规则修正 论文指路:Task adaptation of Vision-Language-Action model: 1st Place Solution for the 2025 BEHAVIOR Challenge