AI计算广告论文播报｜6月16日：多轮改稿RL上线搜索广告与Agent状态校验范式 - 周六9点半

本期聚焦两个核心问题：广告文案生成如何从"一次写完"进化到"多轮自我修订"？LLM Agent 的输出如何不污染系统状态？同时我们也观察到多篇论文在集体质疑检索系统的"容量幻觉"。

本期重点

Interactor: Agentic RL oriented Iterative Creation for Ad Description Generation in Sponsored Search——百度搜索广告团队将 Agentic RL 用于广告描述的多轮迭代生成，核心亮点是让奖励模型不只打分、还写"批改意见"，模型读着评语改稿，忠实度从 0.73 涨到 0.87。已覆盖 14 万广告主线上部署，广告收入 +0.74%。
Orchestrated Reality: LLM-Driven World Simulation as a Parameterized-Action POMDP——表面讲开放世界游戏，实质给所有 LLM Agent 系统提供了一套"JSON 状态树 + 结构化 diff + 三重校验"的架构范式。对广告投放 Agent 防幻觉、可审计、可回放有直接迁移价值。
MMLongEmbed / Lost at the End / Filtered ANN——三篇分别从多模态 embedding、RAG 位置偏差、向量检索执行计划角度，共同揭示召回阶段的鲁棒性被系统性低估：长 context 未必被有效利用，执行计划会因选择性误估而崩塌。

今日趋势

全量 705 篇论文中，LLM 主题 279 篇继续领跑，研究重心从纯推理对齐扩散到检索增强、embedding 建模和 Agent 系统。"生成式 + 行为信号"融合正渗透排序全链路。
多篇工作的底层判断惊人一致：不能再信任模型一次输出就是对的，下一阶段的工程红利在于"加一层结构化的校验和反馈"。

完整日报与论文列表见：GitHub 归档

本期内容由 AI 自动生成并经人工审校，如有疏漏欢迎留言指正。我们下期见。