这份资料深入探讨了强化学习(RL)的基本概念,包括基于值的RL和Q学习,强调了智能体通过试错和奖励函数进行学习。它进一步介绍了参数化学习,如线性回归和神经网络(包括McCulloch-Pitts单元、前馈网络和反向传播),旨在解决传统Q学习在泛化和存储方面的局限性,并提出了参数化Q学习的理念。核心在于通过学习参数化的函数来优化智能体的行为。
强化学习概述
- 智能体通过与环境直接交互,通过试错(trial and error)来提高性能。
- 需要一个奖励函数
r(s,a,s′)来衡量从状态s经动作a到状态s′的收益。 - 智能体试图记住哪些状态/动作带来了好的或坏的奖励,并最大化其行动的长期感知收益。
基于值的强化学习与Q学习
- 通过试错来估计
V*(最优值函数)或Q*(最优动作-值函数)。 - 示例通过帕埃利亚(paella)食谱的客人评分来展示奖励计算和平均值更新。
- 使用时间差分(Temporal Difference)更新规则
Q(a) ← Q(a) + α ( r(a) – Q(a)),其中α是学习率。 - Q学习适用于我们不知道
γ(状态转移函数)的马尔可夫决策过程(MDP),通过修改Bellman更新规则来最大化奖励。 - Q学习面临需要存储庞大的
Q(s,a)表和泛化能力不足的问题。
参数化学习与线性回归
- 通过调整参数
θ来使参数化函数fθ(x)逼近y值。 - 以线性回归
fθ(x) = θ0 + θ1x为例,通过最小化经验损失函数Loss = (1/|D|) Σ (fθ(x) – y)^2进行学习。 - 通过计算损失函数对参数的偏导数来找到最小值。
- 梯度下降法是常用的优化方法,分为批量(Batch)和随机(Stochastic)两种模式。
参数化Q学习
- 动机是解决传统Q学习中
Q(s,a)表存储量大和难以泛化到新情况的问题。 - 核心思想是开发一个参数化的公式
Qθ(s,a)来近似Q(s,a)。 - 通过梯度下降算法调整参数
θ,使其能够拟合观察到的奖励。
神经网络基础与学习
- McCulloch-Pitts单元: 一个简单的数学模型,其输出
aj取决于输入ai的加权和in_j = Σ wi,j ai经过激活函数g的结果g(in_j)。 - 多层前馈网络: 由单元组成的非循环网络,通常分层组织,连接从左到右。
- 表达能力: 具有足够单元的两层网络可以近似所有连续函数,三层网络可以近似所有函数。
- 反向传播学习: 通过梯度下降调整网络的权重,以最小化损失函数,分为批量和在线两种更新方式。
- 激活函数: 包括逻辑(Sigmoid)、Softplus和ReLU(修正线性单元);Sigmoid在深度网络中存在梯度消失问题,ReLU和Softplus被广泛用作替代。
