Sonic Aged's Blog

A blog about Shit and more Shit

随机逼近与随机梯度下降读书笔记

随机逼近(RM算法)和随机梯度下降(SGD)是强化学习的优化基础。本文推导RM算法的收敛条件,对比BGD/SGD/MBGD的收敛特性,建立与TD学习的理论桥梁,解释优化中的两阶段行为。

Read more »

蒙特卡洛强化学习读书笔记

蒙特卡洛方法通过采样轨迹估计值函数,实现无模型学习。本文介绍MC Basic、MC Exploring Starts和MC ε-Greedy三种算法,分析探索机制设计,对比批量更新与在线更新的优劣,阐述大数定律下的收敛保证。

Read more »

值迭代与策略迭代算法读书笔记

值迭代和策略迭代是求解MDP的经典动态规划方法。本文对比两种算法的流程、收敛性和计算效率,引入截断策略迭代作为平衡方案,并通过网格世界示例演示其应用,揭示广义策略迭代(GPI)的统一框架。

Read more »

最优策略与贝尔曼最优方程读书笔记

贝尔曼最优方程(BOE)是求解最优策略的核心工具。本文证明BOE解的存在唯一性,分析值迭代的收敛性,探讨奖励设计、折扣率对策略的影响,并给出确定性策略充分性的理论保证。

Read more »

强化学习基础:状态值与贝尔曼方程读书笔记

状态值函数量化策略的长期收益,贝尔曼方程揭示其递归结构。本文通过网格世界示例展示状态值计算,推导贝尔曼方程的矩阵形式与求解方法,并分析状态值与动作值的关系,为策略评估奠定数学基础。

Read more »

强化学习基础概念读书笔记

本文定义状态、动作、奖励、策略等核心概念,形式化MDP五元组框架。通过网格世界示例说明状态转移、回报计算和任务分类(分幕vs连续),为后续算法提供统一的数学建模基础。

Read more »

2023年的CDR模型

想看2020到2022的可以前往CDR models From 2020 To 2022

本文将介绍的是2023年的CDR模型,总的来说23年的模型在之前的基础上变得更复杂了,但感觉和鼠鼠想要的创新还有一些小距离捏(主要是一连看到好多篇拼好模捏)

Read more »

2020到2022年的CDR模型

本博客将简单分析从2020年到2022年的CDR论文中所有的图神经相关的模型架构,使用数据,模型和实验亮点。由于篇幅有限(主要是鼠鼠懒捏),所有的模型都不会有详细的说明。但鼠鼠都将原文贴在了最后,想下细了解的可以去看原文捏。

另外,鼠鼠已经在之前大致地看过一遍截止目前的相关文章,奈何因为一些SB事情,再加上没有留下任何的笔记(主要原因),所有已经忘得差不多了。这也是决定写一篇博客的原因

还有就是,这里的大致指的是:2023之后的全部和2022之前的顺眼的捏,所以这篇中的大多数模型是没看过的捏

Read more »
0%