【第591期】推理模型成本反转现象:标价与实际开销的脱节Seventy3

【第591期】推理模型成本反转现象:标价与实际开销的脱节

21分钟 ·
播放数2
·
评论数0

Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。

如果你想要解读自己的论文,获得更多曝光度。请联系小助手微信:seventy3_podcast 加群。
合作邮箱:zhiwudazhanjiangshi#gmail.com

今天的主题是:

The Price Reversal Phenomenon: When Cheaper Reasoning Models End Up Costing More

Summary

开发者和消费者在选择推理语言模型(RLMs)时,往往会根据官方给出的 API 价目表进行决策。然而,这些标价真的能反映实际的推理成本吗?

我们对此进行了首次系统性研究,涵盖了 8 个前沿 RLM 并在 9 项任务(如竞赛数学、科学问答、代码生成等)上进行了评估。结果揭示了一个令人震惊的真相:API 标价在很多时候只是个“幌子”。


1. 核心发现:“价格倒挂”现象

研究发现,标价更便宜的模型,用起来反而可能更贵。

  • 发生频率:在 21.8% 的模型配对比较中,出现了价格倒挂(Pricing Reversal)。

  • 极端案例:倒挂幅度最高可达 28 倍

  • 扎心的例子

    Gemini 3 Flash vs. GPT-5.2

    • 标价:Gemini 3 Flash 比 GPT-5.2 便宜 78%

    • 实测成本:在所有任务中,Gemini 3 Flash 的实际支出反而比 GPT-5.2 高出 22%

2. 罪魁祸首:深不可测的“思考 Token”

为什么便宜的模型反而更贵?问题的根源在于不同模型对 思考 Token(Thinking Tokens) 的消耗量存在巨大差异。

  • 消耗异质性:面对同一个查询,某个模型使用的思考 Token 可能比另一个模型多出 900%

  • 数据相关性

    • 如果剔除思考 Token 的成本,排名逆转现象会减少 70%

    • 标价与实际成本之间的秩相关系数(Kendall’s τ)会从 0.563 跃升至 0.873

3. 不可预测的“噪音墙”

研究进一步指出,想要精准预测单次查询的成本几乎是不可能的。

  • 即使是完全相同的查询,多次运行产生的思考 Token 变化量也可能高达 9.7 倍

  • 这种“不可还原的噪声”为任何成本预测模型都设定了一个难以逾越的底线。


结论与建议

研究结果表明,API 官方标价是衡量实际成本的一个极不可靠的指标。

  1. 成本感知选型:在选择模型时,不能只看 1M Token 多少钱,而必须针对具体业务场景进行实测。

  2. 透明监控:呼吁厂商提供更透明的单次请求成本监测工具。

简单来说: 别只看单价,有些模型虽然单价低,但它们“想得太多”,最后买单的还是你。

原文链接:arxiv.org