Chap8 & Chap9 ：Probabilistic

本资料深入探讨了在不确定环境下进行行动和规划的核心概念与算法。首先，它介绍了概率域模型、策略定义以及安全/不安全解决方案等基础理论，并利用贝尔曼最优性原理来量化期望成本。随后，资料详细阐述了策略迭代、值迭代等经典算法，以及AO*、LAO*和蒙特卡洛树搜索（UCT）等更高级的规划与执行方法，这些方法旨在高效地在随机环境中寻找最优策略。

概率模型与策略

核心概念: 定义了状态（S）、动作（A）、状态转移函数（γ）、转移概率（Pr）和成本（cost），共同构成概率域模型 Σ。

策略定义: 策略（π）是一个将状态映射到动作的函数，指导智能体在不确定环境中采取行动。

历史与可达性: 历史是策略在特定初始状态下生成的状态序列；可达性图谱则描绘了从起始状态可达的所有可能状态集合。

解决方案与最优性

问题类型: 主要关注随机最短路径（SSP）问题，即在存在不确定性的情况下寻找从起始状态到目标状态的最低期望成本路径。

解决方案类型: 区分了安全解决方案（保证以1的概率达到目标）和不安全解决方案（有一定概率达到目标但非必然）。

期望成本与贝尔曼方程: 使用 Vπ(s) 表示从状态 s 开始遵循策略 π 到目标的期望成本，并通过贝尔曼最优性原理（V*(s)）来定义并计算最优策略的期望成本。