Reinforcement-Learning-L6

Posted on 2025-07-28 Edited on 2026-04-19 In ReinForcement Learning , Mathmatical Foundation Word count in article: 1.4k Reading time ≈ 5 mins.

随机逼近与随机梯度下降读书笔记

随机逼近（RM算法）和随机梯度下降（SGD）是强化学习的优化基础。本文推导RM算法的收敛条件，对比BGD/SGD/MBGD的收敛特性，建立与TD学习的理论桥梁，解释优化中的两阶段行为。

Monte Carlo Methods

Posted on 2025-07-28 Edited on 2026-04-19 In ReinForcement Learning , Mathmatical Foundation Word count in article: 1.5k Reading time ≈ 5 mins.

蒙特卡洛强化学习读书笔记

蒙特卡洛方法通过采样轨迹估计值函数，实现无模型学习。本文介绍MC Basic、MC Exploring Starts和MC ε-Greedy三种算法，分析探索机制设计，对比批量更新与在线更新的优劣，阐述大数定律下的收敛保证。

Value Iteration and Policy Iteration

Posted on 2025-07-28 Edited on 2026-04-19 In ReinForcement Learning , Mathmatical Foundation Word count in article: 1.4k Reading time ≈ 5 mins.

值迭代与策略迭代算法读书笔记

值迭代和策略迭代是求解MDP的经典动态规划方法。本文对比两种算法的流程、收敛性和计算效率，引入截断策略迭代作为平衡方案，并通过网格世界示例演示其应用，揭示广义策略迭代（GPI）的统一框架。

Bellman Optimality Equation

Posted on 2025-07-28 Edited on 2026-04-19 In ReinForcement Learning , Mathmatical Foundation Word count in article: 1.4k Reading time ≈ 5 mins.

最优策略与贝尔曼最优方程读书笔记

贝尔曼最优方程（BOE）是求解最优策略的核心工具。本文证明BOE解的存在唯一性，分析值迭代的收敛性，探讨奖励设计、折扣率对策略的影响，并给出确定性策略充分性的理论保证。

Bellman Equation

Posted on 2025-07-28 Edited on 2026-04-19 In ReinForcement Learning , Mathmatical Foundation Word count in article: 1.8k Reading time ≈ 7 mins.

强化学习基础：状态值与贝尔曼方程读书笔记

状态值函数量化策略的长期收益，贝尔曼方程揭示其递归结构。本文通过网格世界示例展示状态值计算，推导贝尔曼方程的矩阵形式与求解方法，并分析状态值与动作值的关系，为策略评估奠定数学基础。

Basic Concepts

Posted on 2025-07-28 Edited on 2026-04-19 In ReinForcement Learning , Mathmatical Foundation Word count in article: 1.4k Reading time ≈ 5 mins.

强化学习基础概念读书笔记

本文定义状态、动作、奖励、策略等核心概念，形式化MDP五元组框架。通过网格世界示例说明状态转移、回报计算和任务分类（分幕vs连续），为后续算法提供统一的数学建模基础。

CDR-model In 2024 | Part 2

Posted on 2025-07-27 Edited on 2026-04-12 In CDR , Model Word count in article: 2.4k Reading time ≈ 9 mins.

2024年的CDR模型easy go

原来没有剩多少捏，蚌

想看2020到2022的可以前往CDR models From 2020 To 2022

想看2023的可以前往CDR models In 2023

想看2024（前半截）的可以前往CDR model In 2024 | Part 1

CDR model In 2024 | Part 1

Posted on 2025-07-27 Edited on 2026-04-12 In CDR , Model Word count in article: 3.9k Reading time ≈ 14 mins.

2024年的CDR模型easy come

想看2020到2022的可以前往CDR models From 2020 To 2022

想看2023的可以前往CDR models In 2023

~~本文将介绍的是2024年的CDR模型~~

事情本来是这样的，结果写了一半发现24年的东西都好大坨，于是决定拆成两部分，这是前半部分。

CDR models In 2023

Posted on 2025-07-26 Edited on 2026-04-12 In CDR , Model Word count in article: 1.9k Reading time ≈ 7 mins.

2023年的CDR模型

想看2020到2022的可以前往CDR models From 2020 To 2022

本文将介绍的是2023年的CDR模型，总的来说23年的模型在之前的基础上变得更复杂了，但感觉和鼠鼠想要的创新还有一些小距离捏~~（主要是一连看到好多篇拼好模捏）~~

CDR models From 2020 To 2022

Posted on 2025-07-20 Edited on 2026-04-12 In CDR , Model Word count in article: 4.1k Reading time ≈ 15 mins.

2020到2022年的CDR模型

本博客将简单分析从2020年到2022年的CDR论文中所有的图神经相关的模型架构，使用数据，模型和实验亮点。由于篇幅有限~~（主要是鼠鼠懒捏）~~，所有的模型都不会有详细的说明。但鼠鼠都将原文贴在了最后，想下细了解的可以去看原文捏。

另外，鼠鼠已经在之前大致地看过一遍截止目前的相关文章，奈何因为一些SB事情，再加上没有留下任何的笔记~~（主要原因）~~，所有已经忘得差不多了。这也是决定写一篇博客的原因

还有就是，这里的大致指的是：2023之后的全部和2022之前的顺眼的捏，所以这篇中的大多数模型是没看过的捏