Sonic Aged's Blog

A blog about Shit and more Shit

Actor-Critic方法读书笔记

Actor-Critic方法结合了策略梯度(Actor)和价值函数估计(Critic)的优势。Actor负责策略改进,Critic评估策略性能并提供反馈。本文详解QAC、A2C、离策略Actor-Critic和确定性策略梯度(DPG)等算法,分析其架构、更新规则和收敛特性,并对比不同方法的适用场景与性能差异。

Read more »

策略梯度方法读书笔记

策略梯度直接优化参数化策略。本文对比表格与函数表示,推导策略梯度定理,分析平均状态值和平均奖励两种度量,给出REINFORCE算法的实现框架,讨论探索-利用平衡机制。

Read more »

值函数逼近方法读书笔记

值函数逼近处理连续/大规模状态空间。本文推导线性逼近和神经网络的SGD更新规则,将Sarsa、Q-learning扩展为函数逼近形式,并讨论深度Q网络(DQN)中的经验回放和目标网络技术。

Read more »

时序差分学习(TD Learning)读书笔记

TD学习结合蒙特卡洛和动态规划的优势,实现在线、低方差的值估计。本文解析TD(0)、Sarsa、Q-learning等算法的更新规则与收敛性,讨论n步回报的偏差-方差权衡,并建立与随机逼近的理论联系。

Read more »

随机逼近与随机梯度下降读书笔记

随机逼近(RM算法)和随机梯度下降(SGD)是强化学习的优化基础。本文推导RM算法的收敛条件,对比BGD/SGD/MBGD的收敛特性,建立与TD学习的理论桥梁,解释优化中的两阶段行为。

Read more »

蒙特卡洛强化学习读书笔记

蒙特卡洛方法通过采样轨迹估计值函数,实现无模型学习。本文介绍MC Basic、MC Exploring Starts和MC ε-Greedy三种算法,分析探索机制设计,对比批量更新与在线更新的优劣,阐述大数定律下的收敛保证。

Read more »

值迭代与策略迭代算法读书笔记

值迭代和策略迭代是求解MDP的经典动态规划方法。本文对比两种算法的流程、收敛性和计算效率,引入截断策略迭代作为平衡方案,并通过网格世界示例演示其应用,揭示广义策略迭代(GPI)的统一框架。

Read more »

最优策略与贝尔曼最优方程读书笔记

贝尔曼最优方程(BOE)是求解最优策略的核心工具。本文证明BOE解的存在唯一性,分析值迭代的收敛性,探讨奖励设计、折扣率对策略的影响,并给出确定性策略充分性的理论保证。

Read more »

强化学习基础:状态值与贝尔曼方程读书笔记

状态值函数量化策略的长期收益,贝尔曼方程揭示其递归结构。本文通过网格世界示例展示状态值计算,推导贝尔曼方程的矩阵形式与求解方法,并分析状态值与动作值的关系,为策略评估奠定数学基础。

Read more »

强化学习基础概念读书笔记

本文定义状态、动作、奖励、策略等核心概念,形式化MDP五元组框架。通过网格世界示例说明状态转移、回报计算和任务分类(分幕vs连续),为后续算法提供统一的数学建模基础。

Read more »
0%