E19 对话孙军：人类凭什么比AI更有资格定义安全？

2026年1月，新加坡成为全球第一个发布Agentic AI治理框架的国家。这份由IMDA牵头、在达沃斯世界经济论坛上正式发布的《Agentic AI模型治理框架》，标志着全球AI治理进入了一个新的阶段——我们不再只是讨论会生成内容的AI，而是开始正视会行动、会决策、会接管系统的AI。

本期节目，我们邀请到新加坡管理大学计算与信息学院终身教授孙军老师，他不仅是形式化验证领域的知名学者，也是新加坡各项AI安全标准制定的核心参与者之一。他和我们分享了新加坡AI治理框架背后的设计逻辑、安全标准，他对世界模型的“偏见”、以及为什么他认为用人类标准来对齐AI这件事本身值得被质疑。

特约嘉宾：

孙军：2007年，孙军获得了李光耀博士后奖学金，并于2010年起担任新加坡管理大学计算与信息学院终身教授。他的研究领域包括人工智能安全、软件工程和形式化方法，已在多个顶级会议和期刊上发表了250多篇论文。他开发的PAT模型检查器被多家公司用于软件分析，并担任多家公司的资深技术顾问，是国际形式化验证与系统安全研究领域的重要学者之一。

本期主播：

Zhuoran：智幻时刻Fungimind主播，重点关注科技法、STS和技术在垂直行业的扩散，拥有财经媒体和云计算&AI行业的交叉从业背景。

SHOWNOTES：

00:05 开篇

04:35 新加坡为何率先发布 Agent 治理框架？

06:55正在主导制定的另一份Technical Reference是什么？和IMDA框架有什么区别？

11:23 几个具体的安全风险例子

15:15 按照现在技术演进速度，模型安全评测的周期会不会越来越短？

18:36 AI Verify工具包的现状，agent相关内容会越来越多加进评测工具吗？

22:45 为什么垂直行业的具体安全需求才是核心问题

28:48 人类为何给agent一个“身份”？

33:19 AI学者如何看待人类的情感边界被技术入侵？

36:44 幻觉检测中模型会知道被监督就撒谎

41:29 Human in the loop在agent语境下没用了？

45:22 新加坡为什么没有自己的大模型？

53:50 开源vs闭源

59:13 《Project Hail Mary》和《超级智能》

01:02:33 安全研究会走向虚无主义吗？

本期涉及的核心文献与资源

新加坡治理框架

新加坡IMDA《Agentic AI模型治理框架》（2026年1月）官方全文：www.imda.gov.sg

新加坡AI Verify工具包：aiverifyfoundation.sg

文中涉及的部分近期论文：

CORVUS: Red-Teaming Hallucination Detectors via Internal Signal Camouflage in Large Language Models
Preprint, Jan 2026 — 探讨现有 LLM 幻觉检测器如何被模型“对抗性隐藏信号”欺骗，从而揭示检测方法的脆弱性。

Developing a Strong CPS Defender: An Evolutionary Approach
Preprint, Dec 2025 — 提出一种进化式方法提升网络物理系统（CPS）异常检测防御能力。

SoK: a Comprehensive Causality Analysis Framework for Large Language Model Security
Preprint, Dec 2025 — 通过因果分析统一解释大模型安全弱点（如越狱、对抗样本）并辅助防御策略设计。

节目中提到的其他参考

Anthropic Weak-to-Strong Generalization研究

新加坡网络安全局（CSA）Agentic AI安全指南（2025年10月）

节目中提到的书：《Project Hail Mary》，Andy Weir著，中文版《拯救计划》

🎵

制作团队：智幻时刻Fungimind

BGM：

开场：Zack Hemsey - Mind Heist No Turning Back

插曲：Richie Hawtin - Headcase

片尾：Lonely Man - Alex Hamlin

Email: Fungimind@163.com

本期播客的完整视频欢迎搜索智幻时刻Fungimind的小红书（Fungimind_AI治理蘑菇）、B站同名账号或官网（thefungimind.com)。