Avo妙妙屋 | 小宇宙 - 听播客，上小宇宙

38已订阅

Avo妙妙屋

Avoo

单集更新

节目详情

AnyTouch2：解决触觉三大痛点，金字塔数据+分层训练
00:01:37 动态触觉领域三大核心痛点 * 数据缺乏连续时序与力值标注 * 模型无法预判力变与打滑 * 传感器兼容性差 00:03:17 触觉表征方案的局限 * 数据侧重静态属性 * 动作单一 * 常规视觉模型难以适配触觉形变特征 00:05:04 TouchHD金字塔数据 * T5（纯按压数据） * T4（随机动作数据） * T3（指定动作数据） * T2（操控动作数据） * T1（力关联数据） 00:06:49 递进式整体训练框架 * 00:08:04 像素级训练 * 掩码像素重建损失函数 * 掩码像素帧间误差损失函数 * 00:09:37 语义级训练 * 多模态对齐 * 视觉&触觉，文本&触觉双向对齐 * 物体匹配 * 正样本相似度计算：同物体不同传感器 * 负样本相似度计算：不同物体 * 动作匹配 * 正样本相似度计算：同动作不同传感器 * 负样本相似度计算：不同动作 * 00:12:35 物理交互级训练 * 3D接触力预测损失 + 帧间3D接触力力差损失 * 00:13:20 总体训练框架 * 先学习像素级特征，再线形学习对齐，匹配，力交互论文指路：AnyTouch 2: General Optical Tactile Representation Learning For Dynamic Tactile Perception 这一期背景音乐只是随便挑了一下，但是莫名很好听（April Sky），网易云上的中文翻译歌词也很妙（英文没咋看，但感觉没那味儿）：时间记录了我们的全部～年年岁岁花相似，岁岁年年人不同～
15分钟 · 11天前
14
2
拆解苏黎世理工绳驱ORCA灵巧手：解决绳驱天然缺陷
00:01:50 ORCA Hand 为什么火？ 8小时完成组装 + 低成本 + 高灵巧度 + 长时间稳定运行 00:02:20 当前灵巧手有哪些路线？绳驱：Shadow Hand，InMoov 直驱 / 准直驱方案：LEAP Hand 00:03:31 ORCA 的核心机械设计 * 全 3D 打印结构 * 棘轮式张力调节 * 金属导销 * 特氟龙导管 00:08:31 防撞关节 & 手指设计 * 可弹开式安全关节 * 取消最末端独立驱动 00:10:28 手腕 & 触觉方案 * 仅保留手腕屈伸自由度 * 使用同步带而非 tendon 驱动 * 触觉使用 FSR 压力传感器：只检测：“是否接触”，而不是精准测力 00:13:21 ORCA 最有意思的部分：自动标定 * 没有额外角度传感器 * 重新计算手指关节角度&电机角度的比例系数论文：ORCA: An Open-Source, Reliable, Cost-Effective, Anthropomorphic Robotic Hand for Uninterrupted Dexterous Task Learning 春天到啦啦啦，大家要出门踏踏青喔！！！看我拍的fafa
17分钟 · 1 个月前
27
5
400美金低成本灵巧手样机，准直驱动技术全解析
00:01:13 为什么最近大家都在关注灵巧手？ * Sharpa灵巧手 * 从高端方案到低成本路线，寻找可量产解法 00:02:40 传统机械手的问题在哪里？ * 大减速比齿轮方案：力量足，但回驱性差 * 依赖力传感器：反馈存在延迟 * 面对人机交互、柔软物体、不规则物体时表现受限 00:04:17 这篇文章的创新点 * Quasi-Direct-Drive（准直驱） * Impedance Control（阻抗控制） * Differential Mechanism（差动结构） 00:06:50 理论框架和机械结构 * 机械结构 * 两台电机驱动两根手指 * 使用差动齿轮结构分配扭矩 * 手部结构大量采用3D打印件 * 电机转动角度&关节转动角度映射关系 * 差动齿轮结构 * 指尖位置误差&关节扭矩映射关系 * 指尖阻抗控制 * 虚拟弹簧&阻尼 * 关节位置误差&关节扭矩映射关系 * 关节阻抗控制 * 关节力矩&电机力矩映射关系 * 差动齿轮结构 00:11:22 双层控制系统外层控制： * 根据目标指尖位置/关节角度 * 计算需要的关节力矩内层控制： * 使用FOC磁场定向控制 * 精准调节电机电流实现目标扭矩输出 00:17:33 方案实现效果 * 指尖输出力约 8.2N * 受外界干扰时不易脱手 * 成本约 400美元所以是非常有现实意义的开源方向~ 00:19:47 为什么这样的技术路线值得关注呢相比堆硬件的高端灵巧手，这种路线更像现实答案： * 更低成本 * 更易量产 * 更适合机器人商业落地 * 控制思路先进论文指路：Development of a Novel Impedance-Controlled Quasi-Direct-Drive Robotic Hand 大家有什么想法都可以再评论区讨论喔！！！
21分钟 · 1 个月前
34
2
从MIT猎豹到宇树四足机器人：揭秘宇树顶级关节模组密码
01:10 一个10万美元的问题：机器狗到底贵在哪？ 02:15 动物能力的工程映射：三大核心矛盾 * 爆发力（高扭矩） * 反应速度（高带宽控制） * 冲击缓冲（抗冲击能力） 03:30 传统控制的局限：为什么“等传感器反馈”太慢？ * 经典控制链路（触地→检测→反馈→输出） * MIT方案：关节直接控力（Proprioceptive Actuation） 07:35 决定一切的隐藏变量：转动惯量 * 简化模型（质量 / 腿 / 执行器 / 弹簧） * 实验结论：转动惯量是核心变量 * 有弹簧 vs 无弹簧：10Hz vs 80Hz 09:30 IMF指标：机器人“抗摔能力”的第一次量化 * 什么是IMF（Impact Mitigation Factor） * IMF = 0 vs IMF = 0.8 的意义 * 行业意义：第一次有统一标准 10:28 一个反直觉结论：弹簧并不能减少冲击 * 只能改变“时间分布” * 不能减少“总冲击量” 11:12 关键设计策略：大半径 + 低减速比 * gap radius（气隙半径）决定扭矩 * 大半径 → 高扭矩 * 低减速比 → 低惯量 + 高回驱性 13:33 MIT是怎么设计的？ * 电机升级（9 → 27 Nm/kg） * 齿轮比：1比5.8（远低于工业机器人） * 结构设计：重心上移、腿部极轻 16:14 机器狗贵的不是“聪明”，而是“物理极限” * 贵在：低惯量设计高扭矩密度电机精密减速器论文指路：Proprioceptive Actuator Design in the MIT Cheetah: Impact Mitigation and High-Bandwidth Physical Interaction for Dynamic Legged Robots code: mit-biomimetics / Cheetah-Software Public
17分钟 · 2个月前
34
4
Seedance：AI视频的终点，不是素材，而是影视作品
01:05 整期概述 * 数据、架构、后训练、加速、评测体系、模型对比 01:39 核心能力 * 中文语音（方言 + 情绪） * 人物一致性（不变脸 + 口型同步） * 运镜能力（复杂镜头） * 叙事能力（自动补全故事） * 表演能力（戏曲 + 微表情） 04:49 数据 * 音画同步 * 动作丰富 * 难度分级 * 精细标注（画面 + 音频 + 情绪） 06:20 模型架构（MMDiT） * 音频 + 视频联合建模 * 时间轴对齐 * 支持多输入生成（text / image） 07:14 后训练 * 高质量数据微调（电影 / MV） * RLHF 提升质量与情绪 07:47 推理加速 * 蒸馏（大模型 → 小模型） * 减少扩散步骤 * 量化 / 并行（≈10×提速） 08:50 新评测体系 * Seed Video Bench 1.5 * 视频评测 * Video-Vidvidness（活人感） * 表情 / 动作 / 运镜 / 互动 * 解决“AI视频不真实”问题 * 音频评测 * 指令一致 * 音质 * 音画同步 * 情绪表达 11:31 模型对比 * 中文语音：优于 Google Veo * 音画同步：优于 Google Veo，Kling 2.6 * 情绪表达：比 OpenAI Sora 更克制（更适合商业） 13:34 总结大家快去试试吧～论文指路：Seedance 1.5 pro: A Native Audio-Visual Joint Generation Foundation Model
14分钟 · 3个月前
26
0
英伟达在布局什么？DreamZero让视频扩散模型提速38倍？人类视频=机器人训练数据？
00:29 Nvidia宏观生态 * Omniverse（虚拟世界建模） * Cosmos World Foundation Model（多样化场景生成） * GPU / DGX 训练 * Jetson 部署 01:48 DreamZero五大核心贡献 * 预测未来视频 + 动作 * 泛化性提升 * 38× 推理加速 * 人类视频 → 机器人跨身体迁移 * 开源 03:59 Discussion * Scaling law 在世界动作模型中是否存在 * 人类视频是否可用 * 速度是否够快 * 如何突破记忆长度 6 秒限制 * WAM高精度操作能力 * 人形机器人是否更优 07:46 三大核心挑战 * 视频–动作对齐 * 双向 vs 自回归架构选择 * 推理太慢 10:20 模型架构拆解 * 输入输出结构 * Joint Video-Action DiT * 真实观测替换自回归 + KV cache 预测结果 * 损失函数：共享t_k * Teacher Forcing 17:12 推理加速 * 异步执行结构 * 系统级优化：CFG 并行 / DiT cache * Dream Zero Flash利用去耦噪声的超强升级版论文指路：https://dreamzero0.github.io/DreamZero.pdf
22分钟 · 3个月前
25
0
李飞飞PointWorld：机器人世界模型里程碑？机器人不用训练就能干活了？机器人终于学会“理解世界”了？
00:59 为什么 PointWorld 这么火？ * Zero-shot 世界模型 * 不需要任务微调、人工演示或 reward 设计 * 只需预训练世界模型 + MPC 即可控制机器人 02:13 模型输入 State Representation * 静态环境点云 * 每个点包含 3D位置 + 特征向量 Action Representation * 机器人动作序列 * 转化为机器人表面点的运动 05:58 模型预测 * 环境点云 + 机器人轨迹点云直接拼接 * 使用 backbone 学习交互关系 * 一次 forward 预测多个时间步的点位移 * 推理速度远快于 diffusion 世界模型 08:20 训练目标损失函数主要包含四部分： * Movement Weight：强调动态点 * 3D Residual：位移误差 * Uncertainty Weight：置信度加权 * Uncertainty Regularization：防止模型作弊 10:47 机器人控制核心流程： * 初始化轨迹 * 采样扰动轨迹 * 用 PointWorld 预测未来环境 * 计算任务代价和控制代价 * 更新最优轨迹 13:14 数据与3D重建流水线 3D重建流水线： * 使用 Foundation Stereo 提升深度精度 * 优化相机外参（VGGT） * 使用 CoTracker3 解决像素追踪与遮挡问题 16:11 总结论文指路：PointWorld: Scaling 3D World Models for In-The-Wild Robotic Manipulation code：github.com
17分钟 · 4个月前
28
0
斯坦福顶尖具身智能赛事Behavior Challenge 2025冠军方案详解
00:12 比赛介绍 00:58 比赛难点 02:50 模型整体架构模型优化 * 03:57 任务嵌入替代自然语言描述 * 04:23 融合任务阶段与阶段信息 * 06:22 动态适配动作专家对视觉语言特征 * 07:51 设计增量动作空间 + 每时间步归一化训练优化 * 08:49 噪声基于动作时序与关节协同关系建模 * 10:43 多样本 Flow Matching 单次跑vlm前向训练方式 * 11:29 多任务训练与任务特化微调训练策略推理优化 * 12:46 长时程动作序列平滑机制 * 15:47 通过cubic spline interpolation压缩动作提速 * 17:55 在线跟踪与投票逻辑稳定任务 * 20:12 针对常见失败模式的轻量级规则修正论文指路：Task adaptation of Vision-Language-Action model: 1st Place Solution for the 2025 BEHAVIOR Challenge
21分钟 · 5个月前
35
0

分享Robotics领域好玩的文章～大家有什么想听的也可以分享在评论区哇