Chap10:Reinforcement Learning

Chap10:Reinforcement Learning

14分钟 ·
播放数3
·
评论数0

这份资料深入探讨了强化学习(RL)的基本概念,包括基于值的RL和Q学习,强调了智能体通过试错和奖励函数进行学习。它进一步介绍了参数化学习,如线性回归和神经网络(包括McCulloch-Pitts单元、前馈网络和反向传播),旨在解决传统Q学习在泛化和存储方面的局限性,并提出了参数化Q学习的理念。核心在于通过学习参数化的函数来优化智能体的行为。

强化学习概述

  • 智能体通过与环境直接交互,通过试错(trial and error)来提高性能。
  • 需要一个奖励函数 r(s,a,s′) 来衡量从状态 s 经动作 a 到状态 s′ 的收益。
  • 智能体试图记住哪些状态/动作带来了好的或坏的奖励,并最大化其行动的长期感知收益。

基于值的强化学习与Q学习

  • 通过试错来估计 V*(最优值函数)或 Q*(最优动作-值函数)。
  • 示例通过帕埃利亚(paella)食谱的客人评分来展示奖励计算和平均值更新。
  • 使用时间差分(Temporal Difference)更新规则 Q(a) ← Q(a) + α ( r(a) – Q(a)),其中 α 是学习率。
  • Q学习适用于我们不知道 γ(状态转移函数)的马尔可夫决策过程(MDP),通过修改Bellman更新规则来最大化奖励。
  • Q学习面临需要存储庞大的 Q(s,a) 表和泛化能力不足的问题。

参数化学习与线性回归

  • 通过调整参数 θ 来使参数化函数 fθ(x) 逼近 y 值。
  • 以线性回归 fθ(x) = θ0 + θ1x 为例,通过最小化经验损失函数 Loss = (1/|D|) Σ (fθ(x) – y)^2 进行学习。
  • 通过计算损失函数对参数的偏导数来找到最小值。
  • 梯度下降法是常用的优化方法,分为批量(Batch)和随机(Stochastic)两种模式。

参数化Q学习

  • 动机是解决传统Q学习中 Q(s,a) 表存储量大和难以泛化到新情况的问题。
  • 核心思想是开发一个参数化的公式 Qθ(s,a) 来近似 Q(s,a)
  • 通过梯度下降算法调整参数 θ,使其能够拟合观察到的奖励。

神经网络基础与学习

  • McCulloch-Pitts单元: 一个简单的数学模型,其输出 aj 取决于输入 ai 的加权和 in_j = Σ wi,j ai 经过激活函数 g 的结果 g(in_j)
  • 多层前馈网络: 由单元组成的非循环网络,通常分层组织,连接从左到右。
  • 表达能力: 具有足够单元的两层网络可以近似所有连续函数,三层网络可以近似所有函数。
  • 反向传播学习: 通过梯度下降调整网络的权重,以最小化损失函数,分为批量和在线两种更新方式。
  • 激活函数: 包括逻辑(Sigmoid)、Softplus和ReLU(修正线性单元);Sigmoid在深度网络中存在梯度消失问题,ReLU和Softplus被广泛用作替代。