今天从知名开发者宝玉@dotey「中文AI圈的顶流和信息枢纽」的Coding Agent方法论和ITBench测试结果聊起,讲AI现在的真实状态——AI越能干,人越要把好关。
💡 本期核心观点
AI现在的状态是,看起来很厉害,但真要让它独立干活,还差得远
宝玉的方法论告诉我们,开头的方向很重要——如果一开始就走偏了,后面怎么改都改不好
ITBench测试告诉我们,AI会过度自信——推理轮次差3倍,但更长的轨迹并不转化为更高准确率,过度调查反而会提交误报
不是AI替代人,是人跟AI一起配合——人把方向,AI干执行
工具越来越多,越来越强,但人的判断反而越来越重要
📌 提到的关键信息
- 宝玉的Coding Agent方法论:多方案选最优→拆Phases+验证标准→按阶段执行+人工审核→最后GPT-5.5审核,别让多智能体交叉Review(否则代码越改越多)
- ITBench-AA基准测试:Claude Opus 4.7 47%,GPT-5.5 46%,Qwen3.7 Max 42%;测试内容是59个需要通过Shell命令调查Kubernetes事件并提交根因诊断的任务
- 今日工具更新:Runway MCP服务器(接入Gen-4.5、Seedance 2.0、GPT Image 2、Kling 3.0、Nano Banana Pro)、Claude Code v2.1.152(/code-review --fix直接应用建议)、FastVideo Dreamverse开源(7秒生成30秒1080p视频)、Grok登陆Kilo IDE
🎯 建议与行动
1. 用AI之前,先把方向想清楚——别让AI一开始就走偏
2. 建立边界——什么东西可以让它自动做,什么东西必须人工审核
3. 对AI的结果保持怀疑——不要过度信任,尤其是关键任务
4. 人跟AI配合——人把方向,AI干执行
5. 现在就开始用AI——在使用中学习如何跟它配合

