线性上下文老虎机(Linear Contextual Bandits)在决策过程中的算法优化

线性上下文老虎机(Linear Contextual Bandits)在决策过程中的算法优化

26分钟 ·
播放数10
·
评论数0

这篇学术论文探讨了线性上下文老虎机(Linear Contextual Bandits)在决策过程中的算法优化,旨在实现“两全其美(Best-of-Both-Worlds)”的性能。研究团队针对随机(Stochastic)和对抗(Adversarial)两种环境,提出了首批能在两种机制下均达到近乎最优遗憾界(Regret Bounds)且具备多项式时间复杂度的算法。文中特别介绍了基于连续乘法权重更新(MWU-LC)和跟随正则化领导者(FTRL-LC)的改进框架,能够有效应对环境的不确定性。该研究的一大突破在于,算法在无需预先获知协方差矩阵逆矩阵的情况下,依然能保持高效的运行与鲁棒性。此外,这些算法还被证明在存在对抗性干扰的随机场景中具有极强的适应力。通过**矩阵几何重采样(MGR)**等先进技术,作者成功解决了偏差评估与计算效率之间的平衡难题。