理想i8首搭VLA大模型：辅助驾驶告别模仿，学会思考

康乐说智能硬件

15分钟 ·10个月前

6

·

0

理想汽车正引领辅助驾驶技术从传统的“端到端”模仿学习模式，转向更具推理能力的“VLA（视觉-语言-行为）大模型”。这一变革旨在克服现有系统在复杂城市路况下的瓶颈，通过在感知与行动间引入“语言”环节，赋予车辆类似人类的“思考”能力。理想汽车将VLA定位为提供“私人司机”般安全、舒适的出行体验，而非单纯追求驾驶效率，并已将国内首个量产VLA模型搭载于理想i8上。

VLA技术原理与突破

核心概念: VLA（Vision-Language-Action）在“看见”（Vision）和“行动”（Action）之间植入“语言”（Language）环节，使车辆能够进行“思考”和“推理”。

克服瓶颈: 解决了传统“端到端”模型在遇到未见过或复杂场景时（如复杂街角、突发行人）“宕机”的问题，使其不再是单纯的“模仿猴子”。

决策模式: 实现了类似人类的“内心戏”思考过程，能结合上下文理解路况（如狭窄双向车道、对向来车）并做出更合理、安全的决策。

理想汽车的VLA实践与训练

产品定位: 将VLA定义为“私人司机”，核心目标是让乘客坐得舒服、安心，将“安全”置于“效率”之前，宁愿慢稳也不激进冒险。

训练环境: 主要通过自研的“世界模型仿真系统”进行强化学习，AI在无限逼真的虚拟世界中每天“行驶”超30万公里，经历大量极端场景并从失败中进化。

数据策略: 运用“数据炼金术”，通过自研MindGPT基座模型对海量“老司机数据”进行精细清洗和生成，解决大模型可能出现的反常识或幻觉问题，并坚信“规模法则”（Scaling Law）。

国内首个量产: 理想汽车已率先将VLA模型量产上车，并在理想i8上进行了深度体验，为行业树立了先行者姿态。

VLA的部署与算力优化

边缘端部署: VLA作为大模型部署在边缘端算力上极具挑战，理想汽车通过魔改CUDA底层、重写PTX指令等工程创新，在Thor芯片上实现了推理帧率的显著提升（如从500-600毫秒缩短至10Hz）。

精度优化: 通过将计算精度从FP16降至FP8甚至未来FP4，同时优化算子和流匹配（flow matching）等技术，在不降低性能的前提下压榨芯片算力。

算力积累: 理想汽车的训练算力从端到端时代的不到1EFLOPS增长到10EFLOPS，并持续增加推理算力，为VLA的迭代提供了坚实基础。

安全理念与未来展望

安全优先级: 在“安全、舒适、效率”的不可能三角中，理想汽车明确将“安全”放在首位（以MPA衡量），其次是“舒适”（以MPI衡量），最后是“效率”。

仿真替代实车: 理想汽车大幅减少实车测试，主要依赖仿真测试验证VLA效果，认为仿真效果完全可媲美实车测试，且效率更高、成本更低。

行业壁垒与开放: 理想汽车的核心技术壁垒在于其12亿公里的数据积累和强大的工程能力，新玩家难以跳过数据闭环和世界模型训练；未来不排除在验证成熟后向行业开放VLA核心能力，促进行业发展。

在小宇宙打开