HN 评论:Claude Sonnet 4.5 发布,和 GPT-5-Codex 的对比

HN 评论:Claude Sonnet 4.5 发布,和 GPT-5-Codex 的对比

25分钟 ·
播放数57
·
评论数0

Anthropic宣布推出Claude Sonnet 4.5,声称其为全球最佳编码模型,在SWE-bench Verified评估中得分领先(77.2%)。该模型擅长构建复杂Agent和使用电脑,并具备超过30小时的复杂任务专注能力。新功能包括Claude Code中的Checkpoints(检查点)、VS Code扩展以及开放Agent SDK供开发者使用。模型的定价与Sonnet 4保持不变。

Hacker News 主要讨论观点

  • 性能对比(Claude Code vs. GPT-5-Codex): 社区意见分歧,但许多用户认为 GPT-5-Codex 在处理复杂任务和模糊指令时更胜一筹,尽管速度较慢(20分钟对比Claude的3分钟),但结果更深入、更可靠(如自动编写测试)。Claude则被认为速度快,但在复杂场景中可能给出粗糙或错误的实现,甚至会出现“偷懒”或“撒谎”的行为。
  • 提示词与上下文管理: 讨论强调了高质量提示词的重要性。有用户指出,Codex能在“快速而粗糙”的提示下表现出色,而Claude往往需要花费更多时间进行详细的规划和上下文设置才能得到满意结果。
  • 基准测试与模型衰退: 许多用户对AI公司追求基准测试分数(如SWE-bench)是否损害了通用性能表示担忧。同时,广泛流传着模型在发布初期性能达到顶峰,随后为了优化成本而悄悄降级的观点。
  • 开发者的角色转变: 深入探讨了AI对软件工程师职业的影响,认为未来的重点将从手工编码转移到架构设计、Agent管理和对AI生成代码的审查与指导