Basic Concepts

Posted on 2025-07-28 Edited on 2025-07-30 In Learning , ReinForcement Learning , Mathmatical Foundation Views: Word count in article: 1.4k Reading time ≈ 5 mins.

强化学习基础概念读书笔记

本文定义状态、动作、奖励、策略等核心概念，形式化MDP五元组框架。通过网格世界示例说明状态转移、回报计算和任务分类（分幕vs连续），为后续算法提供统一的数学建模基础。

网格世界示例 (Grid-World Example)

环境结构：
- 网格由9个单元格组成（编号 $s_1$ 到 $s_9$）
- 单元格类型：可通行区域（如 $s_1, s_2$）、禁区（如 $s_6$）、目标区（如 $s_9$）、边界
智能体任务：
从任意起点找到通往目标区域 $s_9$ 的“优质”路径。
- “优质”定义：避免进入禁区、减少绕路、不触碰边界。

核心概念与数学形式化

状态 (State)

定义：智能体在环境中的当前状态标识（网格世界中为位置）
状态空间 (State Space)：
$$\mathcal{S} = {s_i}_{i=1}^{9} = {s_1, s_2, \dots, s_9}$$

动作 (Action)

定义：智能体在状态 $s_i$ 下可执行的操作
动作空间 (Action Space)：
$$\mathcal{A}(s_i) = {a_k}_{k=1}^{5} = {a_1: \text{向上}, a_2: \text{向右}, a_3: \text{向下}, a_4: \text{向左}, a_5: \text{静止}}$$

注意：不同状态可能有不同的合法动作集（如边界处无法向外移动）

状态转移 (State Transition)

定义：执行动作 $a$ 后，状态从 $s_i$ 迁移到 $s_j$ 的过程
数学表示：
- 确定性转移（无随机因素）：
  $$s_i \xrightarrow{a} s_j \quad \Rightarrow \quad p(s_j | s_i, a) = 1$$
- 随机性转移（如受风力影响）：
  $$p(s_j | s_i, a) \in [0, 1], \quad \sum_{s_j \in \mathcal{S}} p(s_j | s_i, a) = 1$$
特殊规则：
- 触碰边界：$s_i \xrightarrow{a} s_i$（保持原位，奖励 $r_{\text{bound}}=-1$）
- 进入禁区：
  - 方案1（默认）：$s_i \xrightarrow{a} s_{\text{forbid}}$（允许进入但惩罚 $r_{\text{forbid}}=-1$)
  - 方案2：$s_i \xrightarrow{a} s_i$（物理阻挡无法进入）

状态转移表示法

状态\动作	$a_1$ (上)	$a_2$ (右)	$a_3$ (下)	$a_4$ (左)	$a_5$ (静)
$s_1$	$s_1$	$s_2$	$s_4$	$s_1$	$s_1$
$s_2$	$s_2$	$s_3$	$s_5$	$s_1$	$s_2$
…	…	…	…	…	…

局限：表格仅能表示确定性转移，随机转移需用概率分布 $p(s’|s,a)$。

策略 (Policy)

定义：在状态 $s$ 下选择动作 $a$ 的规则
数学表示：
$$\pi(a|s) = \mathbb{P}(\text{选择动作 } a \mid \text{状态 } s), \quad \sum_{a \in \mathcal{A}(s)} \pi(a|s) = 1$$
类型：
- 确定性策略：$\exists a’ \text{ s.t. } \pi(a’|s)=1, \pi(a|s)=0 (\forall a \neq a’)$
- 随机性策略：$\exists a \text{ s.t. } \pi(a|s) \in (0,1)$（如探索需求）

策略表示法

状态\动作	$a_1$	$a_2$	$a_3$	$a_4$	$a_5$
$s_1$	0	0.5	0.5	0	0
$s_2$	0	0	1	0	0
…	…	…	…	…	…

奖励 (Reward)

定义：执行动作后环境反馈的标量值（鼓励/惩罚信号）
设计原则：
- $r_{\text{bound}} = -1$（触碰边界）
- $r_{\text{forbid}} = -1$（进入禁区）
- $r_{\text{target}} = +1$（到达目标）
- 其他情况 $r = 0$
关键性质：
- 相对性：奖励的绝对数值不重要，相对大小决定策略优劣（例如 ${+1,-1}$ 等价于 ${+2,0}$）
- 随机性：$p(r|s,a)$ 可建模不确定性（如学习效果波动）

轨迹与回报 (Trajectory & Return)

轨迹：状态-动作-奖励序列
$$s_1 \xrightarrow[r=0]{a_2} s_2 \xrightarrow[r=0]{a_3} s_5 \xrightarrow[r=0]{a_3} s_8 \xrightarrow[r=1]{a_2} s_9$$
回报 (Return)：累积奖励之和
- 有限轨迹：$\text{return} = \sum_{t=1}^{T} r_t = 0+0+0+1=1$
- 无限轨迹问题：若在 $s_9$ 持续停留，回报 $\sum_{t=4}^{\infty} 1 \to \infty$（发散）

折扣回报 (Discounted Return)

引入折扣因子 $\gamma \in (0,1)$ 保证收敛：
$$G_t = \sum_{k=0}^{\infty} \gamma^k r_{t+k+1} = r_{t+1} + \gamma r_{t+2} + \gamma^2 r_{t+3} + \cdots$$

性质：
- $\gamma \approx 0$：侧重近期奖励
- $\gamma \approx 1$：侧重远期奖励
计算示例（$s_1$ 到 $s_9$ 后停留）：
$$G = \gamma^3(1 + \gamma + \gamma^2 + \cdots) = \gamma^3 \frac{1}{1-\gamma}$$

7. 任务分类

类型	特点	回报计算
分幕任务 (Episodic)	存在终止状态（如到达 $s_9$）	有限步累积奖励
连续任务 (Continuing)	无终止状态	折扣回报 $G_t$

马尔可夫决策过程 (Markov Decision Process, MDP)

关键五元组 $\langle \mathcal{S}, \mathcal{A}, P, R, \gamma \rangle$

状态集 $\mathcal{S}$
动作集 $\mathcal{A}(s)$（状态相关）
状态转移概率：
$$P(s’|s,a) = \mathbb{P}(s_{t+1}=s’ \mid s_t=s, a_t=a)$$
奖励函数：
$$R(s,a) = \mathbb{E}[r_{t+1} \mid s_t=s, a_t=a] \quad \text{或} \quad p(r|s,a)$$
折扣因子 $\gamma \in (0,1)$

马尔可夫性质 (Markov Property)

未来状态/奖励仅依赖当前状态和动作：
$$\begin{align*}
p(s_{t+1}|s_t,a_t,\dots,s_0,a_0) &= p(s_{t+1}|s_t,a_t) \\
p(r_{t+1}|s_t,a_t,\dots,s_0,a_0) &= p(r_{t+1}|s_t,a_t)
\end{align*}$$

抽象表示


graph LR
 
s1((s1)) -->|a1, r| s2((s2))  
s2 -->|a3, r| s5((s5))  
s5 -->|a3, r| s8((s8))  
s8 -->|a2, r=1| s9((s9))

注：网格世界是MDP的具体实例，MDP是强化学习的通用数学模型。

总结

概念	关键描述	数学工具
状态与动作	环境描述与决策基础	集合 $\mathcal{S}, \mathcal{A}$
策略	状态到动作的映射规则	$\pi(a\|s)$
状态转移与奖励	环境动态特性与反馈机制	$p(s’\|s,a), p(r\|s,a)$
轨迹与回报	策略执行的序列与长期收益	$G_t=\sum \gamma^k r_{t+k+1}$
MDP框架	统一建模强化学习问题	$\langle \mathcal{S}, \mathcal{A}, P, R, \gamma \rangle$

📚 𝒥𝑒𝒻𝑒𝓇𝑒𝓃𝒸𝑒

Book-Mathematical-Foundation-of-Reinforcement-Learning