Sonic Aged's Blog

A blog about Shit and more Shit

Agents 补(不)完计划

虽然有一种47年入国军的感觉捏

鼠鼠最近因为换方向的原因,需要学习一些 Agents 有关的东西捏。奈何鼠鼠连 LLMs 都完全不清楚,所以只能从头开始了捏。

这里是自学过程中的总览,主要包括了学习路线,做了什么事情和对应的链接,以及看完一个课程或项目的总体感想。

Read more »

AcWing’s 算法基础课 第一讲 基础算法

此博客完全用于记录召唤死去的记忆的过程,不定时会有放空大脑的情况。

Read more »

DDI 总览

这是搞完(实际并非)CDR之后的另一个东西捏,大致有以下内容:

  1. DDI 的任务主要是什么
  2. DDI 的难点(创新点出现(希望)的位置)
  3. 药物处理方面与 CDR 有什么不同
Read more »

Actor-Critic方法读书笔记

Actor-Critic方法结合了策略梯度(Actor)和价值函数估计(Critic)的优势。Actor负责策略改进,Critic评估策略性能并提供反馈。本文详解QAC、A2C、离策略Actor-Critic和确定性策略梯度(DPG)等算法,分析其架构、更新规则和收敛特性,并对比不同方法的适用场景与性能差异。

Read more »

策略梯度方法读书笔记

策略梯度直接优化参数化策略。本文对比表格与函数表示,推导策略梯度定理,分析平均状态值和平均奖励两种度量,给出REINFORCE算法的实现框架,讨论探索-利用平衡机制。

Read more »

值函数逼近方法读书笔记

值函数逼近处理连续/大规模状态空间。本文推导线性逼近和神经网络的SGD更新规则,将Sarsa、Q-learning扩展为函数逼近形式,并讨论深度Q网络(DQN)中的经验回放和目标网络技术。

Read more »

时序差分学习(TD Learning)读书笔记

TD学习结合蒙特卡洛和动态规划的优势,实现在线、低方差的值估计。本文解析TD(0)、Sarsa、Q-learning等算法的更新规则与收敛性,讨论n步回报的偏差-方差权衡,并建立与随机逼近的理论联系。

Read more »
0%