

ANNIE:系统研究 VLA 动作安全:中科院计算所、中科院自动化所、佐治亚理工、德州大学达拉斯分校概要:虽然相对现在大量对于VLA模型、数据、训练方法等的研究显得有些冷门,但是对于具身设备后期落地有较大意义; 其实相关的安全问题在其他应用小模型以及多模态大模型的领域都存在:譬如存在针对CNN网络的代码欺骗技术,通过篡改某些关键神经元节点的参数,使得人脸识别等模型做出错误的判断;而VLA模型这种与动作关联的模型,受到上述代码层面的攻击则很有可能产生更加严重的后果;毕竟具身智能将来可落地的领域包含了强调安全生产的工业场景、和人类存在大量亲密接触机会的家庭场景和娱乐场景,以及对动作精细程度要求极高的医疗场景等; 声明:上述声音采用 AI 合成,解析内容为原创;本文所涉论文解析,仅针对本文发布时arxiv平台已公开的被解析论文对应版本作出;文中涉及原论文的图表、数据均引用自原论文,相关知识产权归原权利人所有,如涉侵权请联系删除;本文数据汇总与观点解读均为个人基于上述论文解析系列的独立理解与统计,仅代表个人观点,非原作者或相关机构的官方认定,受认知局限难免有错漏,如有发现请联系修改;本文仅作学术交流参考,无法替代原论文,深入研究请查阅原文; 链接:https://arxiv.org/pdf/2509.03383;
VTAM:通过将触觉纳入世界模型提高精细操控成功率-UIUC、斯坦福大学、上海交通大学概要:整体遵循世界模型的技术框架,但是加入了更善于处理需要丰富触觉(contact-rich)反馈的精细任务的触觉模态;通过在编码器、信息后融合等方面的优化,在这类任务上达到了较好的水平; 声明:上述声音采用 AI 合成,解析内容为原创;本文所涉论文解析,仅针对本文发布时arxiv平台已公开的被解析论文对应版本作出;文中涉及原论文的图表、数据均引用自原论文,相关知识产权归原权利人所有,如涉侵权请联系删除;本文数据汇总与观点解读均为个人基于上述论文解析系列的独立理解与统计,仅代表个人观点,非原作者或相关机构的官方认定,受认知局限难免有错漏,如有发现请联系修改;本文仅作学术交流参考,无法替代原论文,深入研究请查阅原文; 链接:arxiv.org/pdf/2603.23481;
LAWM:基于潜空间特征+世界模型降低 VLA 训练成本-穆罕默德·本·扎耶德人工智能大学、亚历山大大学概要:利用基于潜空间特征(Latent Feature)的无监督式视频预测任务对 VLA 模型进行世界模型向的预训练,这样降低了训练数据的获取难度和标注代价,也提高了效果; 声明:上述声音采用 AI 合成,解析内容为原创;本文所涉论文解析,仅针对本文发布时arxiv平台已公开的被解析论文对应版本作出;文中涉及原论文的图表、数据均引用自原论文,相关知识产权归原权利人所有,如涉侵权请联系删除;本文数据汇总与观点解读均为个人基于上述论文解析系列的独立理解与统计,仅代表个人观点,非原作者或相关机构的官方认定,受认知局限难免有错漏,如有发现请联系修改;本文仅作学术交流参考,无法替代原论文,深入研究请查阅原文; 链接:https://arxiv.org/pdf/2509.18428;
DeepVision-VLA:根据注意力特征分布为 VLA 配备深度视觉-北京大学、至简动力、香港中文大学概要:根据 VLA 中主干 LLM 模型每层注意力图中 tokens 值分布,针对性地进行网络优化和重要度区分,达到准确信息注入和剪裁的目的,兼顾整个系统的性能和效果; 声明:上述声音采用 AI 合成,解析内容为原创;解析仅针对该文发布时,arxiv 上已公开被解析论文的最新版本的内容进行;其中所有涉及原论文的图、数据都引用自原论文,如涉及侵权,请及时联系删除;人工解读,难免有错误遗漏,如有发现及时联系修改;如需要深入研究建议阅读原文; 链接:arxiv.org/pdf/2603.15618;
Robotic Assistant:让 VLA 大处着眼、小处着手-苏黎世联邦理工学院概要:借助 VLA 模型能力完成具身设备和人之间协作任务的研究,重点通过对网络结构和监督项的优化,提高模型对于具体协作动作的完成能力; 声明:上述声音采用 AI 合成,解析内容为原创;解析仅针对该文发布时,arxiv 上已公开被解析论文的最新版本的内容进行;其中所有涉及原论文的图、数据都引用自原论文,如涉及侵权,请及时联系删除;人工解读,难免有错误遗漏,如有发现及时联系修改;如需要深入研究建议阅读原文; 链接:https://arxiv.org/pdf/2510.25713v1;
TwinVLA:通过高效组合孪生单臂 VLA 实现协作双臂 VLA 低成本训练:延世大学、微软研究院概要:将两个单独训练的单臂 VLA 模型合并成一个可以协作执行任务的双臂 VLA 模型,无需大量双臂相关数据的预训练,整体训练代价低于同规模双臂 VLA 模型; 声明:上述声音采用 AI 合成,解析内容为原创;解析仅针对该文发布时,arxiv 上已公开被解析论文的最新版本的内容进行;其中所有涉及原论文的图、数据都引用自原论文,如涉及侵权,请及时联系删除;人工解读,难免有错误遗漏,如有发现及时联系修改;如需要深入研究建议阅读原文; 链接:https://arxiv.org/pdf/2511.05275;
VLA研究:VLA模型也需要能屈能伸:瑞士洛桑联邦理工、荷兰代尔夫特理工大学概要:选取VL+直接回归式A、VL+扩散式A这两类主要VLA模型分别部署在刚性(Rigid)、软性(Soft)两种具身本体上,并进行对比实验; 声明:上述声音采用 AI 合成,解析内容为原创;解析仅针对该文发布时,arxiv 上已公开被解析论文的最新版本的内容进行;其中所有涉及原论文的图、数据都引用自原论文,如涉及侵权,请及时联系删除;人工解读,难免有错误遗漏,如有发现及时联系修改;如需要深入研究建议阅读原文; 链接:https://arxiv.org/pdf/2510.17369v1;
PoseVLA:围绕目标 3D 位姿优化 VLA 架构:腾讯 Robotics X、香港科技大学、复旦大学概要:相比之前 VLA 通过图文问答等渐进且“委婉”手段习得空间关系的方式,本文直接以目标物的空间 3D 位姿为主要表征进行输入和学习,并围绕其构建了数据标注、关键输出信息分隔符调整、两阶段训练方法等一整套框架,在多个数据集上取得了较好的效果; 声明:上述声音采用 AI 合成,解析内容为原创;解析仅针对该文发布时,arxiv 上已公开被解析论文的最新版本的内容进行;其中所有涉及原论文的图、数据都引用自原论文,如涉及侵权,请及时联系删除;人工解读,难免有错误遗漏,如有发现及时联系修改;如需要深入研究建议阅读原文; 链接:https://arxiv.org/pdf/2602.19710v1;
TOPReward:帮助“不善言辞”的 MLLM 准确判断具身任务完成度:华盛顿大学、Ai2、亚马逊、北卡教堂山分校概要:关注如何有效采用 MLLM 对 VLA 任务完成度进行量化评估的研究,采用了 RL 的技术路线,从 VLA 内部输出提取奖励信号并稠密化;同时构建了 ManiRewardBench 测试集,证明了该方案在 zero-shot 下的出色表现; 声明:上述声音采用 AI 合成,解析内容为原创;解析仅针对该文发布时,arxiv 上已公开被解析论文的最新版本的内容进行;其中所有涉及原论文的图、数据都引用自原论文,如涉及侵权,请及时联系删除;人工解读,难免有错误遗漏,如有发现及时联系修改;如需要深入研究建议阅读原文; 链接:https://arxiv.org/pdf/2602.19313;
VIDAR:基于扩散式视频生成基座模型,构建通用双臂具身智能体-清华大学、博世概要:整体属于VLA整体框架设计研究,走的GR-1/2等将视频生成能力迁移到动作预测能力的技术路线;在生成中引入重点区域关注、拒绝采样等 tricks 保证生成质量;通过轨迹投影等方式将多个双臂具身智能体项目的数据集进行了融合,着眼解决可训练数据稀缺的问题; 声明:上述声音采用 AI 合成,解析内容为原创;解析仅针对该文发布时,arxiv 上已公开被解析论文的最新版本的内容进行;其中所有涉及原论文的图、数据都引用自原论文,如涉及侵权,请及时联系删除;人工解读,难免有错误遗漏,如有发现及时联系修改;如需要深入研究建议阅读原文; 链接:https://arxiv.org/pdf/2507.12898v1;
H-WM:统一框架+双世界模型+三专家架构,提高长时程机器人任务成功率-华为诺亚方舟实验室、多伦多大学、麦吉尔大学概要:将 VLA 模型的逻辑理解能力和环境状态切换感知能力的提升方法都采用世界模型的思路构建,并打包到同一个统一的双级(bilevel)框架中,以期提升其面对长时任务的可靠性; 声明:上述声音采用 AI 合成,解析内容为原创;解析仅针对该文发布时,arxiv 上已公开被解析论文的最新版本的内容进行;其中所有涉及原论文的图、数据都引用自原论文,如涉及侵权,请及时联系删除;人工解读,难免有错误遗漏,如有发现及时联系修改;如需要深入研究建议阅读原文; 链接:https://arxiv.org/pdf/2602.11291v1;
VLA研究:让具身智能大脑面对海量多模态信息时能够有的放矢-韩国东国大学概要:针对包含更多模态(触觉、热成像等)的 VLA 框架中不同模态融合方式开展的研究,结合 VLM 自动标注实现选择性模态凸显和抑制,期望提升长时序工业操作的效率与成功率; 声明:上述声音采用 AI 合成,解析内容为原创;解析仅针对该文发布时,arxiv 上已公开被解析论文的最新版本的内容进行;其中所有涉及原论文的图、数据都引用自原论文,如涉及侵权,请及时联系删除;人工解读,难免有错误遗漏,如有发现及时联系修改;如需要深入研究建议阅读原文; 链接:https://arxiv.org/pdf/2602.15543;
ST4VLA:空间引导训练范式+双系统架构-上海人工智能实验室、香港科技大学、南方科技大学、复旦大学联合发布概要:关注如何让 VLA 模型通过 2D 训练数据有效习得 3D 空间关系的研究;以两阶段空间引导训练为核心,让模型将 2D 特征准确映射到底层动作生成上,在 SimplerEnv 等 Benchmarks 上的结果很好地体现了模型的泛化性与鲁棒性; 声明:上述声音采用 AI 合成,解析内容为原创;解析仅针对该文发布时,arxiv 上已公开被解析论文的最新版本的内容进行;其中所有涉及原论文的图、数据都引用自原论文,如涉及侵权,请及时联系删除;人工解读,难免有错误遗漏,如有发现及时联系修改;如需要深入研究建议阅读原文; 链接:https://arxiv.org/pdf/2602.10109 ;
SutureBot:基于 VLA 的手术场景自动缝合方案-约翰霍普金斯大学、NVIDIA、斯坦福大学、多伦多大学概要:VLA+外科手术场景的研究,主要针对外科手术场景中的自动缝合等工作;提出了一个该场景下的数据集和一个技术框架,该框架类似双系统+目标条件引导框架,在多个不同类型的VLA模型上进行了实践; 声明:上述声音采用 AI 合成,解析内容为原创;解析仅针对该文发布时,arxiv 上已公开被解析论文的最新版本的内容进行;其中所有涉及原论文的图、数据都引用自原论文,如涉及侵权,请及时联系删除;人工解读,难免有错误遗漏,如有发现及时联系修改;如需要深入研究建议阅读原文; 链接:https://arxiv.org/pdf/2510.20965v1;
Dexbotic:工欲善 VLA 之事,必先利其器-原力灵机、阶跃 AI概要:类似 OpenMMLab 为各类视觉检测模型构建的 mmdetection 框架,本文提出的 Dexbotic 通过对 VLA 模型数据处理、模型训练、推理过程的抽象和封装,构建了可以让相关研究人员快速上手 VLA 模型训练和评测的 Toolbox; 声明:上述声音采用 AI 合成,解析内容为原创;解析仅针对该文发布时,arxiv 上已公开被解析论文的最新版本的内容进行;其中所有涉及原论文的图、数据都引用自原论文,如涉及侵权,请及时联系删除;人工解读,难免有错误遗漏,如有发现及时联系修改;如需要深入研究建议阅读原文; 链接:https://arxiv.org/pdf/2510.23511v1;