05｜模型得分都没超50%，但我们依然离不开AI - 浪潮之息

今天从知名开发者宝玉@dotey「中文AI圈的顶流和信息枢纽」的Coding Agent方法论和ITBench测试结果聊起，讲AI现在的真实状态——AI越能干，人越要把好关。

💡 本期核心观点

AI现在的状态是，看起来很厉害，但真要让它独立干活，还差得远
宝玉的方法论告诉我们，开头的方向很重要——如果一开始就走偏了，后面怎么改都改不好
ITBench测试告诉我们，AI会过度自信——推理轮次差3倍，但更长的轨迹并不转化为更高准确率，过度调查反而会提交误报
不是AI替代人，是人跟AI一起配合——人把方向，AI干执行
工具越来越多，越来越强，但人的判断反而越来越重要

📌 提到的关键信息

- 宝玉的Coding Agent方法论：多方案选最优→拆Phases+验证标准→按阶段执行+人工审核→最后GPT-5.5审核，别让多智能体交叉Review（否则代码越改越多）

- ITBench-AA基准测试：Claude Opus 4.7 47%，GPT-5.5 46%，Qwen3.7 Max 42%；测试内容是59个需要通过Shell命令调查Kubernetes事件并提交根因诊断的任务

- 今日工具更新：Runway MCP服务器（接入Gen-4.5、Seedance 2.0、GPT Image 2、Kling 3.0、Nano Banana Pro）、Claude Code v2.1.152（/code-review --fix直接应用建议）、FastVideo Dreamverse开源（7秒生成30秒1080p视频）、Grok登陆Kilo IDE

🎯 建议与行动

1. 用AI之前，先把方向想清楚——别让AI一开始就走偏

2. 建立边界——什么东西可以让它自动做，什么东西必须人工审核

3. 对AI的结果保持怀疑——不要过度信任，尤其是关键任务

4. 人跟AI配合——人把方向，AI干执行

5. 现在就开始用AI——在使用中学习如何跟它配合