AI计算广告论文播报|6月15日:出价均值陷阱、LLM改写持续训练与工业决策范式收敛

AI计算广告论文播报|6月15日:出价均值陷阱、LLM改写持续训练与工业决策范式收敛

8分钟 ·
播放数0
·
评论数0

本期聚焦一个核心判断:商业化决策系统正从"模型够聪明就行"走向"训练、奖励、上线、回滚每一环都要可控"。三篇来自出价、搜索改写和电商定价的工业论文,骨架竟然是同一套——离线学习 + 在线约束 + 持续重训 + 可回滚。

本期重点

  • DRIVE: Distributional and Retrieval-Augmented Bidding with Value Evaluation——直接面向广告自动出价,用GMM多峰动作头+历史轨迹检索+IQL价值打分的三段式推断结构,专治DT类模型的"Average Action陷阱"(高价和低价都合理,模型却输出无用的中间值)。AuctionNet上把PDiT收益提升约19%。
  • CoRe: A Continuously Reward-Finetuned LLM Query Rewriter for Multi-Stage Context-Aware Relevance in Web-Scale Video Search——TikTok工业级LLM查询改写系统,周更5个月、20次重训16次自动晋升。最有意思的点:奖励公式的代数形状刻意镜像线上排序融合公式,训练涨=线上涨;双族晋升网关曾真实拦截过"模型学会啰嗦来薅奖励"的黑客行为。与广告召回-粗排-精排链路高度同构。
  • High-Frequency Pricing at Scale for E-Commerce(Zalando)——电商促销高频定价系统,predict-then-optimize框架处理波动需求与多目标约束,与广告出价/收益优化在方法论上几乎同构,是很好的工业参考设计。
  • ChronoID: Infusing Explicit Temporal Signals into Semantic IDs for Generative Recommendation——把显式时间戳注入生成式推荐的语义ID构建,让时间不再只靠session顺序隐式表达,对商业化排序的ID体系设计有借鉴价值。

今日趋势

  • 商业化决策类工作正在向统一的"predict/learn → optimize → continuous retrain"范式收敛,DRIVE、CoRe、Zalando定价三篇分别是出价、改写、定价上的实例。
  • Agent系统从"能跑"走向"可观测、可回滚"——GitOfThoughts给推理加版本控制,Meta对长生命周期Agent做静默故障分类学,一正一反指向同一工程化方向。

📎 今日论文归档与完整日报:GitHub 日报链接

本期内容由 AI 自动生成并经人工审校,如有疏漏欢迎留言指正交流。下期见!