理想i8首搭VLA大模型:辅助驾驶告别模仿,学会思考

理想i8首搭VLA大模型:辅助驾驶告别模仿,学会思考

15分钟 ·
播放数6
·
评论数0

理想汽车正引领辅助驾驶技术从传统的“端到端”模仿学习模式,转向更具推理能力的“VLA(视觉-语言-行为)大模型”。这一变革旨在克服现有系统在复杂城市路况下的瓶颈,通过在感知与行动间引入“语言”环节,赋予车辆类似人类的“思考”能力。理想汽车将VLA定位为提供“私人司机”般安全、舒适的出行体验,而非单纯追求驾驶效率,并已将国内首个量产VLA模型搭载于理想i8上。

VLA技术原理与突破

  • 核心概念: VLA(Vision-Language-Action)在“看见”(Vision)和“行动”(Action)之间植入“语言”(Language)环节,使车辆能够进行“思考”和“推理”。
  • 克服瓶颈: 解决了传统“端到端”模型在遇到未见过或复杂场景时(如复杂街角、突发行人)“宕机”的问题,使其不再是单纯的“模仿猴子”。
  • 决策模式: 实现了类似人类的“内心戏”思考过程,能结合上下文理解路况(如狭窄双向车道、对向来车)并做出更合理、安全的决策。

理想汽车的VLA实践与训练

  • 产品定位: 将VLA定义为“私人司机”,核心目标是让乘客坐得舒服、安心,将“安全”置于“效率”之前,宁愿慢稳也不激进冒险。
  • 训练环境: 主要通过自研的“世界模型仿真系统”进行强化学习,AI在无限逼真的虚拟世界中每天“行驶”超30万公里,经历大量极端场景并从失败中进化。
  • 数据策略: 运用“数据炼金术”,通过自研MindGPT基座模型对海量“老司机数据”进行精细清洗和生成,解决大模型可能出现的反常识或幻觉问题,并坚信“规模法则”(Scaling Law)。
  • 国内首个量产: 理想汽车已率先将VLA模型量产上车,并在理想i8上进行了深度体验,为行业树立了先行者姿态。

VLA的部署与算力优化

  • 边缘端部署: VLA作为大模型部署在边缘端算力上极具挑战,理想汽车通过魔改CUDA底层、重写PTX指令等工程创新,在Thor芯片上实现了推理帧率的显著提升(如从500-600毫秒缩短至10Hz)。
  • 精度优化: 通过将计算精度从FP16降至FP8甚至未来FP4,同时优化算子和流匹配(flow matching)等技术,在不降低性能的前提下压榨芯片算力。
  • 算力积累: 理想汽车的训练算力从端到端时代的不到1EFLOPS增长到10EFLOPS,并持续增加推理算力,为VLA的迭代提供了坚实基础。

安全理念与未来展望

  • 安全优先级: 在“安全、舒适、效率”的不可能三角中,理想汽车明确将“安全”放在首位(以MPA衡量),其次是“舒适”(以MPI衡量),最后是“效率”。
  • 仿真替代实车: 理想汽车大幅减少实车测试,主要依赖仿真测试验证VLA效果,认为仿真效果完全可媲美实车测试,且效率更高、成本更低。
  • 行业壁垒与开放: 理想汽车的核心技术壁垒在于其12亿公里的数据积累和强大的工程能力,新玩家难以跳过数据闭环和世界模型训练;未来不排除在验证成熟后向行业开放VLA核心能力,促进行业发展。