Sonic Aged's Blog

A blog about Shit and more Shit

Agents 补(不)完计划

虽然有一种47年入国军的感觉捏

鼠鼠最近因为换方向的原因,需要学习一些 Agents 有关的东西捏。奈何鼠鼠连 LLMs 都完全不清楚,所以只能从头开始了捏。

这里是自学过程中的总览,主要包括了学习路线,做了什么事情和对应的链接,以及看完一个课程或项目的总体感想。

Read more »

AcWing’s 算法基础课 第一讲 基础算法

此博客完全用于记录召唤死去的记忆的过程,不定时会有放空大脑的情况。

Read more »

DDI 总览

这是搞完(实际并非)CDR之后的另一个东西捏,大致有以下内容:

  1. DDI 的任务主要是什么
  2. DDI 的难点(创新点出现(希望)的位置)
  3. 药物处理方面与 CDR 有什么不同
Read more »

Actor-Critic方法读书笔记

Actor-Critic方法结合了策略梯度(Actor)和价值函数估计(Critic)的优势。Actor负责策略改进,Critic评估策略性能并提供反馈。本文详解QAC、A2C、离策略Actor-Critic和确定性策略梯度(DPG)等算法,分析其架构、更新规则和收敛特性,并对比不同方法的适用场景与性能差异。

Read more »

策略梯度方法读书笔记

策略梯度直接优化参数化策略。本文对比表格与函数表示,推导策略梯度定理,分析平均状态值和平均奖励两种度量,给出REINFORCE算法的实现框架,讨论探索-利用平衡机制。

Read more »
0%