Chap10：Reinforcement Learning

张建的个人博客

14分钟 ·9个月前

3

·

0

这份资料深入探讨了强化学习（RL）的基本概念，包括基于值的RL和Q学习，强调了智能体通过试错和奖励函数进行学习。它进一步介绍了参数化学习，如线性回归和神经网络（包括McCulloch-Pitts单元、前馈网络和反向传播），旨在解决传统Q学习在泛化和存储方面的局限性，并提出了参数化Q学习的理念。核心在于通过学习参数化的函数来优化智能体的行为。

强化学习概述

智能体通过与环境直接交互，通过试错（trial and error）来提高性能。

需要一个奖励函数 r(s,a,s′) 来衡量从状态 s 经动作 a 到状态 s′ 的收益。

智能体试图记住哪些状态/动作带来了好的或坏的奖励，并最大化其行动的长期感知收益。

基于值的强化学习与Q学习

通过试错来估计 V*（最优值函数）或 Q*（最优动作-值函数）。

示例通过帕埃利亚（paella）食谱的客人评分来展示奖励计算和平均值更新。

使用时间差分（Temporal Difference）更新规则 Q(a) ← Q(a) + α ( r(a) – Q(a))，其中 α 是学习率。

Q学习适用于我们不知道 γ（状态转移函数）的马尔可夫决策过程（MDP），通过修改Bellman更新规则来最大化奖励。

Q学习面临需要存储庞大的 Q(s,a) 表和泛化能力不足的问题。

参数化学习与线性回归

通过调整参数 θ 来使参数化函数 fθ(x) 逼近 y 值。

以线性回归 fθ(x) = θ0 + θ1x 为例，通过最小化经验损失函数 Loss = (1/|D|) Σ (fθ(x) – y)^2 进行学习。

通过计算损失函数对参数的偏导数来找到最小值。

梯度下降法是常用的优化方法，分为批量（Batch）和随机（Stochastic）两种模式。

参数化Q学习

动机是解决传统Q学习中 Q(s,a) 表存储量大和难以泛化到新情况的问题。

核心思想是开发一个参数化的公式 Qθ(s,a) 来近似 Q(s,a)。

通过梯度下降算法调整参数 θ，使其能够拟合观察到的奖励。

神经网络基础与学习

McCulloch-Pitts单元： 一个简单的数学模型，其输出 aj 取决于输入 ai 的加权和 in_j = Σ wi,j ai 经过激活函数 g 的结果 g(in_j)。

多层前馈网络： 由单元组成的非循环网络，通常分层组织，连接从左到右。

表达能力： 具有足够单元的两层网络可以近似所有连续函数，三层网络可以近似所有函数。

反向传播学习： 通过梯度下降调整网络的权重，以最小化损失函数，分为批量和在线两种更新方式。

激活函数： 包括逻辑（Sigmoid）、Softplus和ReLU（修正线性单元）；Sigmoid在深度网络中存在梯度消失问题，ReLU和Softplus被广泛用作替代。

在小宇宙打开