Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。
如果你想要解读自己的论文,获得更多曝光度。请联系小助手微信:seventy3_podcast 加群。
合作邮箱:zhiwudazhanjiangshi#gmail.com
今天的主题是:
The Price Reversal Phenomenon: When Cheaper Reasoning Models End Up Costing More
Summary
开发者和消费者在选择推理语言模型(RLMs)时,往往会根据官方给出的 API 价目表进行决策。然而,这些标价真的能反映实际的推理成本吗?
我们对此进行了首次系统性研究,涵盖了 8 个前沿 RLM 并在 9 项任务(如竞赛数学、科学问答、代码生成等)上进行了评估。结果揭示了一个令人震惊的真相:API 标价在很多时候只是个“幌子”。
1. 核心发现:“价格倒挂”现象
研究发现,标价更便宜的模型,用起来反而可能更贵。
发生频率:在 21.8% 的模型配对比较中,出现了价格倒挂(Pricing Reversal)。
极端案例:倒挂幅度最高可达 28 倍。
扎心的例子:
Gemini 3 Flash vs. GPT-5.2
标价:Gemini 3 Flash 比 GPT-5.2 便宜 78%。
实测成本:在所有任务中,Gemini 3 Flash 的实际支出反而比 GPT-5.2 高出 22%。
2. 罪魁祸首:深不可测的“思考 Token”
为什么便宜的模型反而更贵?问题的根源在于不同模型对 思考 Token(Thinking Tokens) 的消耗量存在巨大差异。
消耗异质性:面对同一个查询,某个模型使用的思考 Token 可能比另一个模型多出 900%。
数据相关性:
如果剔除思考 Token 的成本,排名逆转现象会减少 70%。
标价与实际成本之间的秩相关系数(Kendall’s τ)会从 0.563 跃升至 0.873。
3. 不可预测的“噪音墙”
研究进一步指出,想要精准预测单次查询的成本几乎是不可能的。
即使是完全相同的查询,多次运行产生的思考 Token 变化量也可能高达 9.7 倍。
这种“不可还原的噪声”为任何成本预测模型都设定了一个难以逾越的底线。
结论与建议
研究结果表明,API 官方标价是衡量实际成本的一个极不可靠的指标。
成本感知选型:在选择模型时,不能只看 1M Token 多少钱,而必须针对具体业务场景进行实测。
透明监控:呼吁厂商提供更透明的单次请求成本监测工具。
简单来说: 别只看单价,有些模型虽然单价低,但它们“想得太多”,最后买单的还是你。
原文链接:arxiv.org

