2026.02.24 | VBVR百万视频补推理教材;VLANeXt十二配方炼成VLA

2026.02.24 | VBVR百万视频补推理教材;VLANeXt十二配方炼成VLA

12分钟 ·
播放数138
·
评论数0

【赞助商】

通勤路上就听AI每周谈。AI每周谈,每周带你回顾上周AI大事

传送门 🔗www.xiaoyuzhoufm.com

【目录】

本期的 14 篇论文如下:

00:31 🧠 A Very Big Video Reasoning Suite(一个超大规模视频推理套件)

01:16 🧪 VLANeXt: Recipes for Building Strong VLA Models(VLANeXt:构建强大视觉-语言-动作模型的实践指南)

02:06 🧭 ManCAR: Manifold-Constrained Latent Reasoning with Adaptive Test-Time Computation for Sequential Recommendation(ManCAR:用于序列推荐的具有自适应测试时计算的流形约束潜在推理)

02:54 🤖 TOPReward: Token Probabilities as Hidden Zero-Shot Rewards for Robotics(TOPReward:将标记概率作为机器人学的隐藏零样本奖励)

03:45 📱 Mobile-O: Unified Multimodal Understanding and Generation on Mobile Device(Mobile-O:移动设备上的统一多模态理解与生成)

04:40 🧠 DSDR: Dual-Scale Diversity Regularization for Exploration in LLM Reasoning(DSDR:用于大语言模型推理探索的双尺度多样性正则化)

05:54 🎯 Learning Cross-View Object Correspondence via Cycle-Consistent Mask Prediction(通过循环一致掩码预测学习跨视角物体对应关系)

06:44 🎻 SkillOrchestra: Learning to Route Agents via Skill Transfer(SkillOrchestra:通过技能迁移学习路由智能体)

07:28 🤖 RoboCurate: Harnessing Diversity with Action-Verified Neural Trajectory for Robot Learning(RoboCurate:利用动作验证神经轨迹的多样性进行机器人学习)

08:02 🚀 K-Search: LLM Kernel Generation via Co-Evolving Intrinsic World Model(K-Search:通过协同演化内在世界模型进行LLM内核生成)

08:43 🤖 SimVLA: A Simple VLA Baseline for Robotic Manipulation(SimVLA:用于机器人操作的简单视觉-语言-动作基线)

09:29 🧠 tttLRM: Test-Time Training for Long Context and Autoregressive 3D Reconstruction(tttLRM:基于测试时训练的长上下文自回归三维重建)

10:23 🗜 Nacrith: Neural Lossless Compression via Ensemble Context Modeling and High-Precision CDF Coding(Nacrith:基于集成上下文建模与高精度CDF编码的神经无损压缩)

11:08 🧬 AAVGen: Precision Engineering of Adeno-associated Viral Capsids for Renal Selective Targeting(AAVGen:用于肾脏选择性靶向的腺相关病毒衣壳精准工程)

【关注我们】

您还可以在以下平台找到我们,获得播客内容以外更多信息

小红书: AI速递