【第559期】PAHF:基于人类反馈的个性化智能体持续学习Seventy3

【第559期】PAHF:基于人类反馈的个性化智能体持续学习

23分钟 ·
播放数3
·
评论数0

Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。

如果你想要解读自己的论文,获得更多曝光度。请联系小助手微信:seventy3_podcast 加群。合作邮箱:zhiwudazhanjiangshi#gmail.com

今天的主题是:

Learning Personalized Agents from Human Feedback

Summary

现代 AI 代理虽然功能强大,但往往难以与个体用户特有的、不断演变的偏好保持一致。以往的方法通常依赖于静态数据集,要么在交互历史上训练隐式偏好模型,要么将用户画像编码在外部存储中。然而,这些方法在面对新用户以及随时间变化的偏好时显得力不从心。

我们提出了 PAHF(Personalized Agents from Human Feedback):这是一个用于持续个性化的框架,代理通过使用显式的单用户内存(per-user memory)从实时交互中进行在线学习。PAHF 执行一个三步循环流程:

  1. 行动前澄清:通过询问来消除歧义;
  2. 行动对齐:将行动植根于从内存中检索到的偏好;
  3. 行动后反馈:当偏好发生漂移时,整合反馈以更新内存。

为了评估这一能力,我们开发了一个四阶段协议,并在具身操控(embodied manipulation)和在线购物两个场景中建立了基准测试。这些基准量化了代理从零开始学习初始偏好、以及随后适应人格特质转变的能力。

我们的理论分析和实验结果表明,将显式内存与双重反馈通道相结合至关重要:PAHF 的学习速度显著加快,且表现持续优于无内存或单通道的基准模型,有效降低了初始个性化误差,并实现了对偏好转移的快速适应。

原文链接:arxiv.org