做家务
清晨洗漱
听播客,上小宇宙!
点击下载
Claude Fable 5 跑分碾压,Reddit 却说"我不需要更好的模型了"
Web3+
9分钟
·
5天前
35
·
0
Anthropic 刚把基准(SWE-Bench Pro 80.3%)刷到新高,但真实舆论场给出的却是另一份成绩单:大量日常与安全研究场景的用户切回旧模型,理由是"成本更高、护栏更烦、收益看不见"。
在小宇宙打开
00:00
00:00