5分钟快览-具身智能VLA | 小宇宙 - 听播客，上小宇宙

864已订阅

5分钟快览-具身智能VLA

多模空间

单集更新

节目详情

StereoPolicy：双目立体感知驱动具身操作策略-斯坦福大学、西北大学、Lambda Inc.
概要：单目视觉策略缺乏可靠深度感知，而显式 3D 重建（点云、深度图）对噪声敏感且计算开销大；本文提出的 StereoPolicy 利用双目立体图像对，以一种非显式 3D 重建的轻量级方式融合空间对应与视差信息，显著提升 VLA 模型的操作精度；声明：上述声音采用AI合成，解析内容为原创；解析仅针对该文发布时，arXiv上已公开被解析论文的最新版本的内容进行；其中所有涉及原论文的图、数据都引用自原论文，如涉及侵权，请及时联系删除；人工解读，难免有错误遗漏，如有发现及时联系修改；如需要深入研究建议阅读原文；链接：https://arxiv.org/pdf/2605.09989 ；
4分钟 · 2天前
10
0
AQC：让机器人的动作节奏快慢自如-北京大学、银河通用（Galbot）、多伦多大学
概要：现有具身领域中基于动作分块（Action Chunking）的强化 Q 学习方法对所有状态使用固定 chunk 大小，无法兼顾接触精细控制与自由空间高效规划；本文提出的自适应 chunk 大小选择方案解决跨尺度 Q 值比较的偏差坍塌问题，在多个测试集上效果能够显著提升；声明：上述声音采用AI合成，解析内容为原创；解析仅针对该文发布时，arXiv上已公开被解析论文的最新版本的内容进行；其中所有涉及原论文的图、数据都引用自原论文，如涉及侵权，请及时联系删除；人工解读，难免有错误遗漏，如有发现及时联系修改；如需要深入研究建议阅读原文；链接：https://arxiv.org/abs/2605.05544 ；
5分钟 · 5天前
51
0
Long-VLA：通过对长时任务分而治之提升成功率-西湖大学联合国内多家高校和科研机构联合发布
概要：基于时域阶段的分治（divide-and-conquer）：根据长时任务不同时间段的特点划分阶段，并采取与之适配的处理方式（phase-aware）进行针对性处理；声明：上述声音采用AI合成，解析内容为原创；解析仅针对该文发布时，arXiv上已公开被解析论文的最新版本的内容进行；其中所有涉及原论文的图、数据都引用自原论文，如涉及侵权，请及时联系删除；人工解读，难免有错误遗漏，如有发现及时联系修改；如需要深入研究建议阅读原文；链接：https://arxiv.org/abs/2508.19958 ；
5分钟 · 11天前
21
0
作者说：构建世界模型环境协助 VLA 模型进行后训练：中山大学联合其他科研机构联合发布 World-Env
概要：本期很荣幸地邀请到了 World-Env/RehearseVLA 的一作，来自中山大学的肖俊锦同学，对于我们解析他们团队多次迭代更新的研究成果：论文题目： World-Env: Leveraging World Model as a Virtual Environment for VLA Post-Training 常用简称： World-Env/RehearseVLA 首发时间： 2025年09月29日（2026年03月18日更新第五版）主要作者： Junjin Xiao（一作，在阿里巴巴集团高德地图实习期间完成本研究）、Yandan Yang、Xinyuan Chang、Ronghan Chen、Feng Xiong、Mu Xu、Wei-Shi Zheng、Qing Zhang（通讯作者）发表机构：中山大学、阿里巴巴集团高德地图、机器智能与先进计算教育部重点实验室进行点评，同时也会穿插一些他对于 VLA 、具身智能相关方面的理解；本文属于模型架构类的 VLA 研究，将世界模型思想和仿真环境进行了结合，抓住了目前 VLA 在某些场景下真实数据获取难等痛点，提出自己方案架构的同时还附带了一个可以验证方案有效性的模拟环境，非常闭环；声明：上述声音均采用 AI 合成，其中由作者口述部分为作者本人真实观点，内容已经过本人授权发表；且主要作者已经确认征得该论文所有作者同意以此种解读方式发表；文中对应观点仅代表主要作者本人；解析仅针对该文发布时，arxiv 上已公开被解析论文的最新版本的内容进行；其中所有涉及原论文的图、数据都引用自原论文，如涉及侵权，请及时联系删除；人工解读，难免有错误遗漏，如有发现及时联系修改；如需要深入研究建议阅读原文；链接：arxiv.org/pdf/2509.24948v5；
3分钟 · 25天前
52
0
作者说：论 VLA 的自我进化-同济大学空间智能团队提出基于在线强化学习和稀疏世界模型的具身模型：SC-VLA
概要：本期很荣幸地邀请到了 SC-VLA 的共同一作之一，来自同济大学的刘晨宇同学，对于我们解析他们团队不久前在 arxiv 上公开的论文：论文题目： Self-Correcting VLA: Online Action Refinement via Sparse World Imagination 常用简称： SC-VLA 首发时间： 2026年02月26日主要作者： Chenyv Liu*, Wentao Tan*, Lei Zhu✉, Fengling Li, Jingjing Li, Guoli Yang（*：共同一作，✉：通讯作者）发表机构：同济大学、悉尼科技大学、电子科技大学、北京大数据先进技术研究院进行点评，同时也会穿插一些他对于 VLA 、具身智能相关方面的理解；文章首先列举了目前具身智能场景中 VLA 模型的一些常用提升效果的训练范式：例如与强化学习（RL）、世界动作模型（WAM）的结合；同时指出这些训练范式目前都缺乏自我进化和利用内在状态提供有效训练监督的能力；前者指对于静态训练数据的依赖性导致模型在决策时更加倾向迎合由静态训练数据决定的先验分布，而非基于当前场景的动态自适应理解；后者则对 RL 参与的情况下奖励函数的设计提出了更高的要求；声明：上述声音均采用 AI 合成，其中由作者口述部分为作者本人真实观点，内容已经过本人授权发表；且主要作者已经确认征得该论文所有作者同意以此种解读方式发表；文中对应观点仅代表主要作者本人；解析仅针对该文发布时，arxiv 上已公开被解析论文的最新版本的内容进行；其中所有涉及原论文的图、数据都引用自原论文，如涉及侵权，请及时联系删除；人工解读，难免有错误遗漏，如有发现及时联系修改；如需要深入研究建议阅读原文；链接：arxiv.org/pdf/2602.21633v1 ；
3分钟 · 1 个月前
37
0
ReconVLA：不确定性感知与失败预警赋能 VLA 可靠控制-德克萨斯大学阿灵顿分校
概要：对 VLA 模型的输出动作进行量化校准，基于校准结果，构建失败提前预测机制，防患于未然；声明：上述声音采用AI合成，解析内容为原创；解析仅针对该文发布时，arxiv上已公开被解析论文的最新版本的内容进行；其中所有涉及原论文的图、数据都引用自原论文，如涉及侵权，请及时联系删除；人工解读，难免有错误遗漏，如有发现及时联系修改；如需要深入研究建议阅读原文；链接：arxiv.org/pdf/2604.16677；
4分钟 · 1 个月前
15
0
WAV：通过隐式生成+采样迭代提高 VLA 模型长程任务能力-西湖大学、南京大学苏州校区
概要：基于隐式生成模型构建 + 轨迹采样迭代优化的思想，有效提高了 VLA 方法在复杂长程任务中的解题能力，在模拟和实机评测任务上均取得了较好的结果；声明：上述声音采用AI合成，解析内容为原创；解析仅针对该文发布时，arxiv上已公开被解析论文的最新版本的内容进行；其中所有涉及原论文的图、数据都引用自原论文，如涉及侵权，请及时联系删除；人工解读，难免有错误遗漏，如有发现及时联系修改；如需要深入研究建议阅读原文；链接：https://arxiv.org/pdf/2604.14732 ；
4分钟 · 1 个月前
25
0
HiVLA：以视觉定位为中心，层次化具身操控模型-香港大学、上海 AI 实验室、上海交通大学、香港中文大学
概要：采用 VL-A 分离式分层框架，结合对于动作生成部分网络结构的优化，显式解耦高低运控，提高长程任务的执行效果；将 VLM 的自适应细节关注很好地与 VLA 领域进行结合；声明：上述声音采用AI合成，解析内容为原创；解析仅针对该文发布时，arxiv上已公开被解析论文的最新版本的内容进行；其中所有涉及原论文的图、数据都引用自原论文，如涉及侵权，请及时联系删除；人工解读，难免有错误遗漏，如有发现及时联系修改；如需要深入研究建议阅读原文；链接：https://arxiv.org/pdf/2604.14125；
4分钟 · 1 个月前
29
0
iRe-VLA：类强化微调方式训练 VLA：清华大学、加州大学伯克利分校、上海期智研究院
概要：通过Online-Policy的RL手段增强监督式微调（SFT）的效果，整体思路和后来在 LLM/MLLM 领域兴起的强化微调（RFT）有些类似；声明：上述声音采用AI合成，解析内容为原创；解析仅针对该文发布时，arxiv上已公开被解析论文的最新版本的内容进行；其中所有涉及原论文的图、数据都引用自原论文，如涉及侵权，请及时联系删除；人工解读，难免有错误遗漏，如有发现及时联系修改；如需要深入研究建议阅读原文；链接：https://arxiv.org/pdf/2501.16664 ；
4分钟 · 2个月前
50
0
VQ-VLA：结合量化压缩提高 VLA 效能-上海 AI Lab、同济、中科大、浙大、南大、上交大
概要：基于 VQ-VAE+Residual Vector Quantization（RVQ）的量化压缩方案 Residual VQ-VAE，但是考虑到 VLA 中 action 生成的时序性，对借鉴方案进行了调整，在 OpenVLA 这个自回归式的 VLA 架构上进行了验证；值得注意的是，文章提到性能的提升主要由于采用 Residual VQ-VAE 后，整个 VLA 完成任务需要输出的词元数量会明显减少；声明：上述声音采用AI合成，解析内容为原创；解析仅针对该文发布时，arxiv上已公开被解析论文的最新版本的内容进行；其中所有涉及原论文的图、数据都引用自原论文，如涉及侵权，请及时联系删除；人工解读，难免有错误遗漏，如有发现及时联系修改；如需要深入研究建议阅读原文；链接：https://arxiv.org/pdf/2507.01016；
4分钟 · 2个月前
31
0
WristWorld：通过3D重建进行视角举一反三-北大、港科大、新加坡国立、北京人形机器人创新中心
概要：具身场景数据合成相关的研究，着手点是如何根据一个视角生成另一个，亮点是如何保持不同视角信息的一致性；除了生成质量的对比外，还通过执行结果对比体现了生成数据对于 VLA 整体链路的收益；声明：上述声音采用AI合成，解析内容为原创；解析仅针对该文发布时，arxiv上已公开被解析论文的最新版本的内容进行；其中所有涉及原论文的图、数据都引用自原论文，如涉及侵权，请及时联系删除；人工解读，难免有错误遗漏，如有发现及时联系修改；如需要深入研究建议阅读原文；链接：https://arxiv.org/pdf/2510.07313；
4分钟 · 2个月前
27
0
ANNIE：系统研究 VLA 动作安全：中科院计算所、中科院自动化所、佐治亚理工、德州大学达拉斯分校
概要：虽然相对现在大量对于VLA模型、数据、训练方法等的研究显得有些冷门，但是对于具身设备后期落地有较大意义；其实相关的安全问题在其他应用小模型以及多模态大模型的领域都存在：譬如存在针对CNN网络的代码欺骗技术，通过篡改某些关键神经元节点的参数，使得人脸识别等模型做出错误的判断；而VLA模型这种与动作关联的模型，受到上述代码层面的攻击则很有可能产生更加严重的后果；毕竟具身智能将来可落地的领域包含了强调安全生产的工业场景、和人类存在大量亲密接触机会的家庭场景和娱乐场景，以及对动作精细程度要求极高的医疗场景等；声明：上述声音采用 AI 合成，解析内容为原创；本文所涉论文解析，仅针对本文发布时arxiv平台已公开的被解析论文对应版本作出；文中涉及原论文的图表、数据均引用自原论文，相关知识产权归原权利人所有，如涉侵权请联系删除；本文数据汇总与观点解读均为个人基于上述论文解析系列的独立理解与统计，仅代表个人观点，非原作者或相关机构的官方认定，受认知局限难免有错漏，如有发现请联系修改；本文仅作学术交流参考，无法替代原论文，深入研究请查阅原文；链接：https://arxiv.org/pdf/2509.03383；
5分钟 · 2个月前
52
0
VTAM：通过将触觉纳入世界模型提高精细操控成功率-UIUC、斯坦福大学、上海交通大学
概要：整体遵循世界模型的技术框架，但是加入了更善于处理需要丰富触觉（contact-rich）反馈的精细任务的触觉模态；通过在编码器、信息后融合等方面的优化，在这类任务上达到了较好的水平；声明：上述声音采用 AI 合成，解析内容为原创；本文所涉论文解析，仅针对本文发布时arxiv平台已公开的被解析论文对应版本作出；文中涉及原论文的图表、数据均引用自原论文，相关知识产权归原权利人所有，如涉侵权请联系删除；本文数据汇总与观点解读均为个人基于上述论文解析系列的独立理解与统计，仅代表个人观点，非原作者或相关机构的官方认定，受认知局限难免有错漏，如有发现请联系修改；本文仅作学术交流参考，无法替代原论文，深入研究请查阅原文；链接：arxiv.org/pdf/2603.23481；
4分钟 · 2个月前
36
2
LAWM：基于潜空间特征+世界模型降低 VLA 训练成本-穆罕默德·本·扎耶德人工智能大学、亚历山大大学
概要：利用基于潜空间特征（Latent Feature）的无监督式视频预测任务对 VLA 模型进行世界模型向的预训练，这样降低了训练数据的获取难度和标注代价，也提高了效果；声明：上述声音采用 AI 合成，解析内容为原创；本文所涉论文解析，仅针对本文发布时arxiv平台已公开的被解析论文对应版本作出；文中涉及原论文的图表、数据均引用自原论文，相关知识产权归原权利人所有，如涉侵权请联系删除；本文数据汇总与观点解读均为个人基于上述论文解析系列的独立理解与统计，仅代表个人观点，非原作者或相关机构的官方认定，受认知局限难免有错漏，如有发现请联系修改；本文仅作学术交流参考，无法替代原论文，深入研究请查阅原文；链接：https://arxiv.org/pdf/2509.18428；
4分钟 · 2个月前
39
0
DeepVision-VLA：根据注意力特征分布为 VLA 配备深度视觉-北京大学、至简动力、香港中文大学
概要：根据 VLA 中主干 LLM 模型每层注意力图中 tokens 值分布，针对性地进行网络优化和重要度区分，达到准确信息注入和剪裁的目的，兼顾整个系统的性能和效果；声明：上述声音采用 AI 合成，解析内容为原创；解析仅针对该文发布时，arxiv 上已公开被解析论文的最新版本的内容进行；其中所有涉及原论文的图、数据都引用自原论文，如涉及侵权，请及时联系删除；人工解读，难免有错误遗漏，如有发现及时联系修改；如需要深入研究建议阅读原文；链接：arxiv.org/pdf/2603.15618；
5分钟 · 2个月前
20
0

~视觉出身的多模态研究者，5分钟带您从专业角度了解具身智能领域内VLA大模型的最新研究进展~