AI计算广告论文播报｜6月15日：出价均值陷阱、LLM改写持续训练与工业决策范式收敛 - 周六9点半

本期聚焦一个核心判断：商业化决策系统正从"模型够聪明就行"走向"训练、奖励、上线、回滚每一环都要可控"。三篇来自出价、搜索改写和电商定价的工业论文，骨架竟然是同一套——离线学习 + 在线约束 + 持续重训 + 可回滚。

本期重点

DRIVE: Distributional and Retrieval-Augmented Bidding with Value Evaluation——直接面向广告自动出价，用GMM多峰动作头+历史轨迹检索+IQL价值打分的三段式推断结构，专治DT类模型的"Average Action陷阱"（高价和低价都合理，模型却输出无用的中间值）。AuctionNet上把PDiT收益提升约19%。
CoRe: A Continuously Reward-Finetuned LLM Query Rewriter for Multi-Stage Context-Aware Relevance in Web-Scale Video Search——TikTok工业级LLM查询改写系统，周更5个月、20次重训16次自动晋升。最有意思的点：奖励公式的代数形状刻意镜像线上排序融合公式，训练涨=线上涨；双族晋升网关曾真实拦截过"模型学会啰嗦来薅奖励"的黑客行为。与广告召回-粗排-精排链路高度同构。
High-Frequency Pricing at Scale for E-Commerce（Zalando）——电商促销高频定价系统，predict-then-optimize框架处理波动需求与多目标约束，与广告出价/收益优化在方法论上几乎同构，是很好的工业参考设计。
ChronoID: Infusing Explicit Temporal Signals into Semantic IDs for Generative Recommendation——把显式时间戳注入生成式推荐的语义ID构建，让时间不再只靠session顺序隐式表达，对商业化排序的ID体系设计有借鉴价值。

今日趋势

商业化决策类工作正在向统一的"predict/learn → optimize → continuous retrain"范式收敛，DRIVE、CoRe、Zalando定价三篇分别是出价、改写、定价上的实例。
Agent系统从"能跑"走向"可观测、可回滚"——GitOfThoughts给推理加版本控制，Meta对长生命周期Agent做静默故障分类学，一正一反指向同一工程化方向。

📎 今日论文归档与完整日报：GitHub 日报链接

本期内容由 AI 自动生成并经人工审校，如有疏漏欢迎留言指正交流。下期见！