OneRec-V2

OneRec-V2

20分钟 ·
播放数144
·
评论数0

该技术报告介绍了 OneRec-V2,这是一个用于推荐系统的工业级生成式框架,旨在解决其前身 OneRec-V1 的可扩展性和性能瓶颈。OneRec-V2 的主要创新在于采用了一种 Lazy Decoder-Only 架构,该架构通过消除传统编码器并简化交叉注意力机制,将计算需求降低了 90% 以上,从而实现了模型参数的有效扩展(最高可达 80 亿)。此外,该系统引入了基于 真实用户互动 的偏好对齐(Preference Alignment)机制,包括 Duration-Aware Reward ShapingGradient-Bounded Policy Optimization (GBPO),以更好地利用用户反馈信号并增强训练稳定性。在快手和快手极速版上的 A/B 测试 表明,OneRec-V2 在显著提升 App 停留时间 等关键指标的同时,有效平衡了多目标推荐,避免了此消彼长的问题。

arxiv.org