so-large-lm | Ex. Mixture of Experts

Posted on 2026-04-22 Edited on 2026-04-23 In LLMs and Agents , LLMs , so-large-lm Views: Word count in article: 864 Reading time ≈ 3 mins.

Mixture of Experts

这是在看到so-large-lm第四章的时候，觉得MoE和RAG应该单独开一坨（而且可能还不太够捏。

这是MoE部分的内容，主要是鼠鼠在这几篇论文的笔记捏

Mixture of Experts (MoE) 是一种通过牺牲“内存空间”来换取“计算效率”和“模型容量”的架构方案。它利用类似“专家分诊”的路由机制，实现了参数规模的指数级增长，同时保持了推理复杂度的线性增长。

开山之作，但主要是思想~~主要是那个时候应该连深度学习都还不太流行吧~~

正式提出了MoE layer，但那个时候好像Transformer才出来捏。鼠鼠的第一次还是想给一个和Transformer结合的捏。

主要的目的是在牺牲内存占用的情况下，换取参数规模和计算效率

在这里，我们先将正常情况下FFN切分成多个小的FFN，每个FFN代表一个 Expert。然后，构建一个Router $G(x)$ 用于选择激活那些专家用于计算。

具体来说，文中选用了Top2的门~~就是一个门最多塞进两根~~，然后MoE层输出所选专家输出的加权和。

为了确保计算效率和负载均衡，GShard 引入了两个关键设计：

专家容量 (Expert Capacity)：为了防止所有 token 都涌向同一个专家，每个专家处理的 token 数量被限制在一个阈值内。如果某个专家的 token 超过了容量限制，多余的 token 将通过残差连接直接跳过该层（即被视为“溢出”）。
辅助损失 (Auxiliary Loss)：为了鼓励门控网络均匀地分配 token，模型在训练时加入了一个辅助损失函数。

贴一个源代码方便理解捏：