Anthropic今天发布了Claude Mythos Preview 的 System Card:这是他们迄今能力最强的前沿模型之一,但正因为它在网络安全、代理执行和高风险任务中的能力跃迁,官方决定暂不向公众开放,而是限制在防御性网络安全合作场景中使用。
摘要:
1. Claude Mythos Preview 展现出的,不只是“更强”,而是一次真正意义上的能力跃迁。
2. Anthropic 这次最重要的信号,不是发布了一个更强模型,而是承认:传统安全评估方法,已经开始跟不上前沿模型的进化速度。
3. Mythos Preview 在真实软件环境中的漏洞发现与利用能力,是它没有被公开发布的关键原因之一。
4. Anthropic 一方面称它是“目前为止对齐表现最好的模型”,另一方面也承认:一旦它在少数场景下出错,后果会比过去严重得多。
5. 前沿模型竞争,正在从“谁更强”转向“谁能证明自己能控制更强的模型”。
来源:

