【第591期】推理模型成本反转现象：标价与实际开销的脱节

Seventy3：借助NotebookLM的能力进行论文解读，专注人工智能、大模型、机器人算法、crypto方向，让大家跟着AI一起进步。

如果你想要解读自己的论文，获得更多曝光度。请联系小助手微信：seventy3_podcast 加群。
合作邮箱：zhiwudazhanjiangshi#gmail.com

今天的主题是：

The Price Reversal Phenomenon: When Cheaper Reasoning Models End Up Costing More

Summary

开发者和消费者在选择推理语言模型（RLMs）时，往往会根据官方给出的 API 价目表进行决策。然而，这些标价真的能反映实际的推理成本吗？

我们对此进行了首次系统性研究，涵盖了 8 个前沿 RLM 并在 9 项任务（如竞赛数学、科学问答、代码生成等）上进行了评估。结果揭示了一个令人震惊的真相：API 标价在很多时候只是个“幌子”。

研究发现，标价更便宜的模型，用起来反而可能更贵。

发生频率：在 21.8% 的模型配对比较中，出现了价格倒挂（Pricing Reversal）。
极端案例：倒挂幅度最高可达 28 倍。
扎心的例子：
Gemini 3 Flash vs. GPT-5.2
- 标价：Gemini 3 Flash 比 GPT-5.2 便宜 78%。
- 实测成本：在所有任务中，Gemini 3 Flash 的实际支出反而比 GPT-5.2 高出 22%。

为什么便宜的模型反而更贵？问题的根源在于不同模型对 思考 Token（Thinking Tokens） 的消耗量存在巨大差异。

消耗异质性：面对同一个查询，某个模型使用的思考 Token 可能比另一个模型多出 900%。
数据相关性：
- 如果剔除思考 Token 的成本，排名逆转现象会减少 70%。
- 标价与实际成本之间的秩相关系数（Kendall’s τ）会从 0.563 跃升至 0.873。

研究进一步指出，想要精准预测单次查询的成本几乎是不可能的。

研究结果表明，API 官方标价是衡量实际成本的一个极不可靠的指标。

简单来说： 别只看单价，有些模型虽然单价低，但它们“想得太多”，最后买单的还是你。

原文链接：arxiv.org