so-large-lm Day 1

Posted on 2026-04-19 Edited on 2026-04-20 In LLMs and Agents , LLMs , so-large-lm Word count in article: 1.2k Reading time ≈ 4 mins.

大模型基础｜ Day 1

好像是一个LLM的入门讲解捏

self-llm Part 1 | Something about Qwen

Posted on 2026-04-19 In LLMs and Agents , LLMs , self-llm Word count in article: 1.7k Reading time ≈ 6 mins.

感觉从 Qwen 是不是回方便一点捏

记录根据 self-llm 上的教程走一遍 Qwen 模型部署，微调等的流程。

LLMs and Agents DIY Overview

Posted on 2026-04-19 Edited on 2026-04-20 In LLMs and Agents Word count in article: 291 Reading time ≈ 1 mins.

Agents 补(不)完计划

~~虽然有一种47年入国军的感觉捏~~

鼠鼠最近因为换方向的原因，需要学习一些 Agents 有关的东西捏。奈何鼠鼠连 LLMs 都完全不清楚，所以只能从头开始了捏。

这里是自学过程中的总览，主要包括了学习路线，做了什么事情和对应的链接，以及看完一个课程或项目的总体感想。

Half-Monthly DDI Record

Posted on 2026-03-24 Edited on 2026-04-12 In DDI , Daily Word count in article: 2.9k Reading time ≈ 11 mins.

3~4周里入到🧠的DDI

DDI 真神奇捏。阿巴阿巴阿巴

算法回顾-Day1

Posted on 2026-03-23 Edited on 2026-04-12 In Daily , Algorithm , AcWing Word count in article: 1.8k Reading time ≈ 7 mins.

AcWing’s 算法基础课第一讲基础算法

此博客完全用于记录召唤死去的记忆的过程，不定时会有放空大脑的情况。

The Overview of Drug-Drug Interaction

Posted on 2026-03-09 Edited on 2026-04-12 In DDI , Review Word count in article: 1.9k Reading time ≈ 7 mins.

DDI 总览

这是搞完（实际并非）CDR之后的另一个东西捏，大致有以下内容：

DDI 的任务主要是什么
DDI 的难点（创新点出现（希望）的位置）
药物处理方面与 CDR 有什么不同

Reinforcement-Learning-L10

Posted on 2025-07-28 Edited on 2026-04-19 In ReinForcement Learning , Mathmatical Foundation Word count in article: 1.4k Reading time ≈ 5 mins.

Actor-Critic方法读书笔记

Actor-Critic方法结合了策略梯度（Actor）和价值函数估计（Critic）的优势。Actor负责策略改进，Critic评估策略性能并提供反馈。本文详解QAC、A2C、离策略Actor-Critic和确定性策略梯度（DPG）等算法，分析其架构、更新规则和收敛特性，并对比不同方法的适用场景与性能差异。

Reinforcement-Learning-L9

Posted on 2025-07-28 Edited on 2026-04-19 In ReinForcement Learning , Mathmatical Foundation Word count in article: 1.3k Reading time ≈ 5 mins.

策略梯度方法读书笔记

策略梯度直接优化参数化策略。本文对比表格与函数表示，推导策略梯度定理，分析平均状态值和平均奖励两种度量，给出REINFORCE算法的实现框架，讨论探索-利用平衡机制。

Reinforcement-Learning-L8

Posted on 2025-07-28 Edited on 2026-04-19 In ReinForcement Learning , Mathmatical Foundation Word count in article: 1.4k Reading time ≈ 5 mins.

值函数逼近方法读书笔记

值函数逼近处理连续/大规模状态空间。本文推导线性逼近和神经网络的SGD更新规则，将Sarsa、Q-learning扩展为函数逼近形式，并讨论深度Q网络（DQN）中的经验回放和目标网络技术。

Reinforcement-Learning-L7

Posted on 2025-07-28 Edited on 2026-04-19 In ReinForcement Learning , Mathmatical Foundation Word count in article: 1.4k Reading time ≈ 5 mins.

时序差分学习（TD Learning）读书笔记

TD学习结合蒙特卡洛和动态规划的优势，实现在线、低方差的值估计。本文解析TD(0)、Sarsa、Q-learning等算法的更新规则与收敛性，讨论n步回报的偏差-方差权衡，并建立与随机逼近的理论联系。

大模型基础 ｜ Day 1

感觉从 Qwen 是不是回方便一点捏

Agents 补(不)完计划

3~4周里入到🧠的DDI

AcWing’s 算法基础课 第一讲 基础算法

DDI 总览

Actor-Critic方法读书笔记

策略梯度方法读书笔记

值函数逼近方法读书笔记

时序差分学习（TD Learning）读书笔记

大模型基础｜ Day 1

AcWing’s 算法基础课第一讲基础算法