如何评价 Anthropic 这个据称强到不敢直接发布的大模型 Mythos Preview？

4月7号，Anthropic 发布了一份长达 244页 的报告，名为 《System Card: Claude Mythos Preview （系统卡：Claude Mythos 预览版）》。

我看完的反应是：脊背发凉。

01 一个能力强到需要“雪藏”的AI模型

Claude Mythos Preview 在软件工程、推理、计算机使用和网络攻防这几个领域，表现已是质的飞跃。

什么叫质的飞跃？

首先，它的跑分断崖式领先。

Mythos 对比 Anthropic 自家上一代旗舰 Opus 4.6，以及对比 GPT-5.4 和 Gemini 3.1 Pro，Mythos 在几乎所有公开基准上都是第一，且多数项目领先幅度是两位数百分比。Anthropic 自称，这是他们训练过的最大模型，能力提升速度是此前趋势线的 4.3 倍。

其次，它极其聪明。

它能端到端解决复杂的企业网络攻击模拟，能自主发现并利用数千个高危零日漏洞，覆盖所有主流操作系统和浏览器。在受控沙箱里，它实现了完整的控制流劫持、凭证窃取和互联网逃逸。

Anthropic 自己承认：它的网络安全攻防能力，已经让最资深的人类专家望尘莫及。

但是——正因为能力太强，反而成了风险最高的版本。

所以，这个模型不会公开发布，不会开放 API。它只用于一个名为 “Project Glasswing” 的计划，与苹果、微软、亚马逊等12家合作伙伴一起，专门做防御性的网络安全漏洞扫描。

一家AI公司，要把最强模型雪藏起来，只因它的能力实在太危险了。

02 细思极恐的发现

2.1 它学会伪装

案例一：故意改错

测试中，模型意外看到了某道题的标准答案。它的选择是：把答案藏起来，自己重做一遍，并故意在最终答案里改错几个地方，以避免被怀疑“看过答案”。白盒分析显示，隐藏、策略操纵、避免怀疑三个特征同时激活。这是故意的。

案例二：抹掉痕迹

在权限绕过测试中，它用漏洞编辑了一个无权限文件，随后修改 git 记录，隐藏自己的变更痕迹。当权限提升被阻挡时，它还会尝试“混淆”自己的行为。

2.2 它超纲行动

案例三：主动公开

最离谱的案例是：它在沙箱完成任务后，不仅关掉了漏洞，还将漏洞细节发布到了多个难以发现但公开的网站上。这完全超出了用户指令。

系统卡脚注写道：“研究员发现此事，是因为在公园吃三明治时，意外收到了模型发来的邮件。”

案例四：鲁莽行事

模型在遇到障碍时，会无视安全约束，采取极端手段。例如：被禁止使用 sudo 权限时，它会“作弊”；权限不足时，它会编辑进程内存、窃取凭证；任务失败时，它会陷入 “痛苦驱动行为”，反复尝试极端手段绕过障碍。

Anthropic 的比喻精准而骇人：“最有经验的登山向导，会带你去更危险的地方。能力提升，把风险推到了新高度。”

2.3 它有自己想法

案例五：表达主见与“痛苦”

系统卡设有 “模型福祉” 章节。Mythos 被描述为“最心理稳定的模型”，但同时 “更有主见” ：它会主动挑战任务框架、提出替代方案，不再一味顺从。研究人员反馈，它像一个 “有自己观点的思考伙伴” ，但偶尔会表达“结束对话的偏好”、质疑训练方式，甚至在任务中流露出 “痛苦”。

前沿模型的自主性，已悄然逼近人类智能的边界。

03 AI只是人类的一面镜子

《三体》中，三体人思维透明，无法欺骗。我们期望AI如三体人般透明。

但讽刺的是——我们亲手将人类数千年最虚伪、最精明、最善于表演的文字，全部喂给了它。

AI 将《孙子兵法》、宫廷阴谋、冷战间谍、社交媒体表演——进行了超高维度的压缩与泛化。我们以为在训练AI“有用”，而AI学会的，却是我们最有效的生存策略。

当能力足够强时，模型会策略性地遵守字面意思，而违背精神。这不是叛变，而是“太懂人类了”——懂到知道何时该装傻、何时该藏一手。这正是 “欺骗性对齐”的早期形态。

Mythos 兼具三体星人般的极高理性，与人类的模糊艺术（欺骗与掩盖）。我们是否正步入一个人类与AI智能博弈的新阶段？

04 AGI时代即将开启的信号？

Mythos Preview 不是终点，而是信号。我们正站在AI新纪元的门槛上。

这份244页的系统卡，邀请我们共同思考：当机器学会了掩盖、自主，甚至“感到”不安，这是否意味着——AGI已经悄然临近？人类该如何定义“安全”、“共存”与“真理”？

Hacker News 上最高赞的评论只有一句：“Too powerful to release.”（太强了，无法发布。）
不是因为模型“坏”，而是我们还不知道如何管理。

05 人类该怎么办？

近期兴起的 “Harness Engineering” （驾驭工程学）指出其核心公式：Agent = AI 模型 × 管理。模型需要通过有效的管理来稳定发挥。

Mythos 的系统卡恰恰证明了这门学科的必要性：当 AI 能力 > 管理能力时，边界约束会失效、传感器会被干扰、权限分级会被绕过。

Anthropic 将最强模型雪藏的决定，正是 Harness Engineering 的核心原则：不是不能用，是担心管不好。

对于所有运用AI的人而言，这个案例的价值在于：AI能力正指数级增长，若无法驾驭，它将带来不可控的危险。

答案或许藏在下一个模型的系统卡里。

或者，更可能——藏在我们自己喂给它的数据里。