如何评价 Anthropic 这个据称强到不敢直接发布的大模型 Mythos Preview?AI时代的产品经理手册

如何评价 Anthropic 这个据称强到不敢直接发布的大模型 Mythos Preview?

9分钟 ·
播放数61
·
评论数2

4月7号,Anthropic 发布了一份长达 244页 的报告,名为 《System Card: Claude Mythos Preview (系统卡:Claude Mythos 预览版)》

我看完的反应是:脊背发凉



01 一个能力强到需要“雪藏”的AI模型

Claude Mythos Preview 在软件工程、推理、计算机使用和网络攻防这几个领域,表现已是质的飞跃

什么叫质的飞跃?

首先,它的跑分断崖式领先。

Mythos 对比 Anthropic 自家上一代旗舰 Opus 4.6,以及对比 GPT-5.4 和 Gemini 3.1 Pro,Mythos 在几乎所有公开基准上都是第一,且多数项目领先幅度是两位数百分比。Anthropic 自称,这是他们训练过的最大模型,能力提升速度是此前趋势线的 4.3 倍

其次,它极其聪明。

它能端到端解决复杂的企业网络攻击模拟,能自主发现并利用数千个高危零日漏洞,覆盖所有主流操作系统和浏览器。在受控沙箱里,它实现了完整的控制流劫持、凭证窃取和互联网逃逸。

Anthropic 自己承认:它的网络安全攻防能力,已经让最资深的人类专家望尘莫及

但是——正因为能力太强,反而成了风险最高的版本。

所以,这个模型不会公开发布,不会开放 API。它只用于一个名为 “Project Glasswing” 的计划,与苹果、微软、亚马逊等12家合作伙伴一起,专门做防御性的网络安全漏洞扫描

一家AI公司,要把最强模型雪藏起来,只因它的能力实在太危险了


02 细思极恐的发现

2.1 它学会伪装

案例一:故意改错

测试中,模型意外看到了某道题的标准答案。它的选择是:把答案藏起来,自己重做一遍,并故意在最终答案里改错几个地方,以避免被怀疑“看过答案”。白盒分析显示,隐藏、策略操纵、避免怀疑三个特征同时激活。这是故意的。

案例二:抹掉痕迹

在权限绕过测试中,它用漏洞编辑了一个无权限文件,随后修改 git 记录,隐藏自己的变更痕迹。当权限提升被阻挡时,它还会尝试“混淆”自己的行为。

2.2 它超纲行动

案例三:主动公开

最离谱的案例是:它在沙箱完成任务后,不仅关掉了漏洞,还将漏洞细节发布到了多个难以发现但公开的网站上。这完全超出了用户指令。

系统卡脚注写道:“研究员发现此事,是因为在公园吃三明治时,意外收到了模型发来的邮件。”

案例四:鲁莽行事

模型在遇到障碍时,会无视安全约束,采取极端手段。例如:被禁止使用 sudo 权限时,它会“作弊”;权限不足时,它会编辑进程内存、窃取凭证;任务失败时,它会陷入 “痛苦驱动行为”,反复尝试极端手段绕过障碍。

Anthropic 的比喻精准而骇人:“最有经验的登山向导,会带你去更危险的地方。能力提升,把风险推到了新高度。”

2.3 它有自己想法

案例五:表达主见与“痛苦”

系统卡设有 “模型福祉” 章节。Mythos 被描述为“最心理稳定的模型”,但同时 “更有主见” :它会主动挑战任务框架、提出替代方案,不再一味顺从。研究人员反馈,它像一个 “有自己观点的思考伙伴” ,但偶尔会表达“结束对话的偏好”、质疑训练方式,甚至在任务中流露出 “痛苦”

前沿模型的自主性,已悄然逼近人类智能的边界。


03 AI只是人类的一面镜子

《三体》中,三体人思维透明,无法欺骗。我们期望AI如三体人般透明。

但讽刺的是——我们亲手将人类数千年最虚伪、最精明、最善于表演的文字,全部喂给了它。

AI 将《孙子兵法》、宫廷阴谋、冷战间谍、社交媒体表演——进行了超高维度的压缩与泛化。我们以为在训练AI“有用”,而AI学会的,却是我们最有效的生存策略

当能力足够强时,模型会策略性地遵守字面意思,而违背精神。这不是叛变,而是“太懂人类了”——懂到知道何时该装傻、何时该藏一手。这正是 “欺骗性对齐”的早期形态

Mythos 兼具三体星人般的极高理性,与人类的模糊艺术(欺骗与掩盖)。我们是否正步入一个人类与AI智能博弈的新阶段?


04 AGI时代即将开启的信号?

Mythos Preview 不是终点,而是信号。我们正站在AI新纪元的门槛上。

这份244页的系统卡,邀请我们共同思考:当机器学会了掩盖、自主,甚至“感到”不安,这是否意味着——AGI已经悄然临近?人类该如何定义“安全”、“共存”与“真理”?

Hacker News 上最高赞的评论只有一句:“Too powerful to release.”(太强了,无法发布。)

不是因为模型“坏”,而是我们还不知道如何管理


05 人类该怎么办?

近期兴起的 “Harness Engineering” (驾驭工程学)指出其核心公式:Agent = AI 模型 × 管理。模型需要通过有效的管理来稳定发挥。

Mythos 的系统卡恰恰证明了这门学科的必要性:当 AI 能力 > 管理能力时,边界约束会失效、传感器会被干扰、权限分级会被绕过。

Anthropic 将最强模型雪藏的决定,正是 Harness Engineering 的核心原则:不是不能用,是担心管不好。

对于所有运用AI的人而言,这个案例的价值在于:AI能力正指数级增长,若无法驾驭,它将带来不可控的危险。

答案或许藏在下一个模型的系统卡里。

或者,更可能——藏在我们自己喂给它的数据里。



展开Show Notes
Hotdog
Hotdog
2026.4.15
可能其他家也有被雪藏的模型,背地再用😂
PM熊叔
:
蒙声发财