主流AI代理框架曝出指令注入风险，自动驾驶雷达信号实现中央计算，Lean证明助手验证26万个数学定理

以下内容由艾斯派索(www.aispresso.com.cn)出品

欢迎收听《艾斯派索AI资讯速递》。本期将带来人工智能领域的最新进展，涵盖AI安全、自动驾驶、智能评测、科学研究自动化、模型压缩与推理优化以及数学形式化等多个方向。请跟随我们的节奏，快速获取一线科技资讯。

近期，一项针对主流AI代理框架的安全测试揭示了核心风险。研究人员发现，包括LangChain、CrewAI、OpenAI Agents SDK、LiteLLM在内的9个主流框架，在工具调用和数据传递时对输入输出缺乏验证，易被恶意指令注入攻击。值得关注的是，这一安全缺陷可通过Aegis安全库加以防护。Aegis利用动态“猴子补丁”技术，在运行时自动检测和修补相关方法，无需额外API调用或增加运算延迟。配置简单，支持各大主流框架及OpenAI、Anthropic等原生API。研究团队已开源完整测试代码，鼓励开发者积极部署和验证，强化AI代理系统的防护能力。这一警示凸显了AI基础设施安全防护的重要性。

在自动驾驶领域，NVIDIA DRIVE平台近日实现了雷达处理架构的重大革新。传统汽车雷达多采用边缘处理，仅输出稀疏点云，导致数据利用有限。NVIDIA通过将原始ADC信号集中到中央计算平台，结合可编程视觉加速器（PVA），大幅提升了数据丰富度和处理效率。这样不仅降低了雷达硬件成本和功耗，还为自动驾驶系统带来更高信号质量和多传感器融合能力，以满足L4级自动驾驶对大规模视觉、语言、行动模型的需求。在ChengTech的协作下，DRIVE AGX Thor已成功集成该技术，为自动驾驶雷达感知展现出更多可能。

智能评测方面，ARC-AGI-3基准测试近期发布，为现有AI系统设定了新的“人类等效线”。这一基准将AI置于人类易于解决的交互式回合制环境中，但模型需要自主探索，无任何外部指示。在测试中，人类首次参与者全数完成任务，而包括Gemini 3.1、GPT 5.4、Opus 4.6、Grok-4.20等领先模型的得分均未超过1%。该基准采用相对人类行动效率（RHAE）作为核心指标，对蛮力行为予以严厉惩罚。同时，排行榜限定统一提示，禁用定制辅助策略，从而真实衡量模型的通用智能与泛化能力。有趣的是，ARC-AGI-3还揭示了当前AI相较人类在理解与适应未知环境方面的差距，也为未来通用人工智能的发展方向提供了客观参考。赛事主办方计划2026年在Kaggle设立高额奖金，激励AI系统首次挑战人类水平。

在科学研究自动化领域，Sakana AI公司推出的AI Scientist工具成为焦点。该系统能够覆盖完整的科研流程，从假设生成到实验设计、数据分析、论文撰写再到同行评审，均由智能代理协作完成。AI Scientist已通过顶级期刊《Nature》同行评审测试，并在国际机器学习会议上提交了多篇原创论文，其中部分论文通过了“图灵测试”——即评审无法辨别其为AI所产。尽管论文质量距顶尖人类科学家仍有差距，团队强调AI Scientist将更大程度上辅助人类科研，并推动“协同科学家”模式加速科学探索进程。

针对大型语言模型推理过程中频繁面临的内存和算力瓶颈，谷歌团队发布了TurboQuant量化算法。TurboQuant无需数据集适配，可直接应用于主流LLM，最高可实现6倍KV缓存压缩和8倍推理速度提升，且对模型准确率无影响。其于输入向量引入随机旋转，实现高效量化与硬件并行化，同时采用两阶段量化策略修正偏差，保证Transformer注意力机制的无偏内积估算。实测在Llama-3.1-8B和Ministral-7B等模型上实现超高检索准确率，对向量数据库同样带来极大效率提升。这项成果对于硬件友好型AI推理具有突破性意义。

最后，把目光投向数学形式化。计算机语言Lean正在被用来构建和自动验证整个数学证明体系，目前已完成26万个定理的校验。这一趋势引发了学界关于创新与严谨的热烈讨论。Lean等证明助手通过庞大的知识库和高效模块化设计，为数学发现、防错与创新提供支持，但也有观点担忧过度依赖可能导致直觉与创造力的减少。历史发展已多次展现创新和严谨的交替推动作用，而Lean的加入则是数字化时代的严谨新延伸。未来，数学社区寻找形式化与创新之间平衡的问题将持续引发关注和探讨。