Basic Concepts
强化学习基础概念读书笔记
本文定义状态、动作、奖励、策略等核心概念,形式化MDP五元组框架。通过网格世界示例说明状态转移、回报计算和任务分类(分幕vs连续),为后续算法提供统一的数学建模基础。
网格世界示例 (Grid-World Example)
- 环境结构:
- 网格由9个单元格组成(编号 $s_1$ 到 $s_9$)
- 单元格类型:可通行区域(如 $s_1, s_2$)、禁区(如 $s_6$)、目标区(如 $s_9$)、边界
- 智能体任务:
从任意起点找到通往目标区域 $s_9$ 的“优质”路径。- “优质”定义:避免进入禁区、减少绕路、不触碰边界。
核心概念与数学形式化
状态 (State)
- 定义:智能体在环境中的当前状态标识(网格世界中为位置)
- 状态空间 (State Space):
$$\mathcal{S} = {s_i}_{i=1}^{9} = {s_1, s_2, \dots, s_9}$$
动作 (Action)
- 定义:智能体在状态 $s_i$ 下可执行的操作
- 动作空间 (Action Space):
$$\mathcal{A}(s_i) = {a_k}_{k=1}^{5} = {a_1: \text{向上}, a_2: \text{向右}, a_3: \text{向下}, a_4: \text{向左}, a_5: \text{静止}}$$注意:不同状态可能有不同的合法动作集(如边界处无法向外移动)
状态转移 (State Transition)
- 定义:执行动作 $a$ 后,状态从 $s_i$ 迁移到 $s_j$ 的过程
- 数学表示:
- 确定性转移(无随机因素):
$$s_i \xrightarrow{a} s_j \quad \Rightarrow \quad p(s_j | s_i, a) = 1$$ - 随机性转移(如受风力影响):
$$p(s_j | s_i, a) \in [0, 1], \quad \sum_{s_j \in \mathcal{S}} p(s_j | s_i, a) = 1$$
- 确定性转移(无随机因素):
- 特殊规则:
- 触碰边界:$s_i \xrightarrow{a} s_i$(保持原位,奖励 $r_{\text{bound}}=-1$)
- 进入禁区:
- 方案1(默认):$s_i \xrightarrow{a} s_{\text{forbid}}$(允许进入但惩罚 $r_{\text{forbid}}=-1$)
- 方案2:$s_i \xrightarrow{a} s_i$(物理阻挡无法进入)
状态转移表示法
| 状态\动作 | $a_1$ (上) | $a_2$ (右) | $a_3$ (下) | $a_4$ (左) | $a_5$ (静) |
|---|---|---|---|---|---|
| $s_1$ | $s_1$ | $s_2$ | $s_4$ | $s_1$ | $s_1$ |
| $s_2$ | $s_2$ | $s_3$ | $s_5$ | $s_1$ | $s_2$ |
| … | … | … | … | … | … |
局限:表格仅能表示确定性转移,随机转移需用概率分布 $p(s’|s,a)$。
策略 (Policy)
- 定义:在状态 $s$ 下选择动作 $a$ 的规则
- 数学表示:
$$\pi(a|s) = \mathbb{P}(\text{选择动作 } a \mid \text{状态 } s), \quad \sum_{a \in \mathcal{A}(s)} \pi(a|s) = 1$$ - 类型:
- 确定性策略:$\exists a’ \text{ s.t. } \pi(a’|s)=1, \pi(a|s)=0 (\forall a \neq a’)$
- 随机性策略:$\exists a \text{ s.t. } \pi(a|s) \in (0,1)$(如探索需求)
策略表示法
| 状态\动作 | $a_1$ | $a_2$ | $a_3$ | $a_4$ | $a_5$ |
|---|---|---|---|---|---|
| $s_1$ | 0 | 0.5 | 0.5 | 0 | 0 |
| $s_2$ | 0 | 0 | 1 | 0 | 0 |
| … | … | … | … | … | … |
奖励 (Reward)
- 定义:执行动作后环境反馈的标量值(鼓励/惩罚信号)
- 设计原则:
- $r_{\text{bound}} = -1$(触碰边界)
- $r_{\text{forbid}} = -1$(进入禁区)
- $r_{\text{target}} = +1$(到达目标)
- 其他情况 $r = 0$
- 关键性质:
- 相对性:奖励的绝对数值不重要,相对大小决定策略优劣(例如 ${+1,-1}$ 等价于 ${+2,0}$)
- 随机性:$p(r|s,a)$ 可建模不确定性(如学习效果波动)
轨迹与回报 (Trajectory & Return)
- 轨迹:状态-动作-奖励序列
$$s_1 \xrightarrow[r=0]{a_2} s_2 \xrightarrow[r=0]{a_3} s_5 \xrightarrow[r=0]{a_3} s_8 \xrightarrow[r=1]{a_2} s_9$$ - 回报 (Return):累积奖励之和
- 有限轨迹:$\text{return} = \sum_{t=1}^{T} r_t = 0+0+0+1=1$
- 无限轨迹问题:若在 $s_9$ 持续停留,回报 $\sum_{t=4}^{\infty} 1 \to \infty$(发散)
折扣回报 (Discounted Return)
引入折扣因子 $\gamma \in (0,1)$ 保证收敛:
$$G_t = \sum_{k=0}^{\infty} \gamma^k r_{t+k+1} = r_{t+1} + \gamma r_{t+2} + \gamma^2 r_{t+3} + \cdots$$
- 性质:
- $\gamma \approx 0$:侧重近期奖励
- $\gamma \approx 1$:侧重远期奖励
- 计算示例($s_1$ 到 $s_9$ 后停留):
$$G = \gamma^3(1 + \gamma + \gamma^2 + \cdots) = \gamma^3 \frac{1}{1-\gamma}$$
7. 任务分类
| 类型 | 特点 | 回报计算 |
|---|---|---|
| 分幕任务 (Episodic) | 存在终止状态(如到达 $s_9$) | 有限步累积奖励 |
| 连续任务 (Continuing) | 无终止状态 | 折扣回报 $G_t$ |
马尔可夫决策过程 (Markov Decision Process, MDP)
关键五元组 $\langle \mathcal{S}, \mathcal{A}, P, R, \gamma \rangle$
- 状态集 $\mathcal{S}$
- 动作集 $\mathcal{A}(s)$(状态相关)
- 状态转移概率:
$$P(s’|s,a) = \mathbb{P}(s_{t+1}=s’ \mid s_t=s, a_t=a)$$ - 奖励函数:
$$R(s,a) = \mathbb{E}[r_{t+1} \mid s_t=s, a_t=a] \quad \text{或} \quad p(r|s,a)$$ - 折扣因子 $\gamma \in (0,1)$
马尔可夫性质 (Markov Property)
未来状态/奖励仅依赖当前状态和动作:
$$\begin{align*}
p(s_{t+1}|s_t,a_t,\dots,s_0,a_0) &= p(s_{t+1}|s_t,a_t) \\
p(r_{t+1}|s_t,a_t,\dots,s_0,a_0) &= p(r_{t+1}|s_t,a_t)
\end{align*}$$
抽象表示
graph LR
s1((s1)) -->|a1, r| s2((s2))
s2 -->|a3, r| s5((s5))
s5 -->|a3, r| s8((s8))
s8 -->|a2, r=1| s9((s9))
注:网格世界是MDP的具体实例,MDP是强化学习的通用数学模型。
总结
| 概念 | 关键描述 | 数学工具 |
|---|---|---|
| 状态与动作 | 环境描述与决策基础 | 集合 $\mathcal{S}, \mathcal{A}$ |
| 策略 | 状态到动作的映射规则 | $\pi(a|s)$ |
| 状态转移与奖励 | 环境动态特性与反馈机制 | $p(s’|s,a), p(r|s,a)$ |
| 轨迹与回报 | 策略执行的序列与长期收益 | $G_t=\sum \gamma^k r_{t+k+1}$ |
| MDP框架 | 统一建模强化学习问题 | $\langle \mathcal{S}, \mathcal{A}, P, R, \gamma \rangle$ |