Claude Mythos模型技术报告精华

Anthropic今天发布了Claude Mythos Preview 的 System Card：这是他们迄今能力最强的前沿模型之一，但正因为它在网络安全、代理执行和高风险任务中的能力跃迁，官方决定暂不向公众开放，而是限制在防御性网络安全合作场景中使用。

摘要：

1. Claude Mythos Preview 展现出的，不只是“更强”，而是一次真正意义上的能力跃迁。

2. Anthropic 这次最重要的信号，不是发布了一个更强模型，而是承认：传统安全评估方法，已经开始跟不上前沿模型的进化速度。

3. Mythos Preview 在真实软件环境中的漏洞发现与利用能力，是它没有被公开发布的关键原因之一。

4. Anthropic 一方面称它是“目前为止对齐表现最好的模型”，另一方面也承认：一旦它在少数场景下出错，后果会比过去严重得多。

5. 前沿模型竞争，正在从“谁更强”转向“谁能证明自己能控制更强的模型”。

来源：