同样是修一个Bug,为什么不同模型间的Token消耗能相差30倍?为何AI自己都算不准自己要花多少钱?斯坦福、MIT等机构联合发表硬核论文,系统剖析了AI Agent在代码任务中的“糊涂账”。我们从千倍的消耗差异、迷路的Agent逻辑以及模型的固有性格中,提炼出了未来选型的三大黄金准则。看懂数据,才能选对模型。