【深度学习新浪潮】MoE技术入门(简要版)
一、什么是MoE?
混合专家模型(Mixture of Experts,MoE) 是一种通过动态路由机制将输入数据分配给多个子网络(专家)的神经网络架构。其核心思想是让不同专家专注于不同子任务,通过门控网络(Gating Network)决定每个输入样本由哪些专家处理,最终将专家输出加权求和作为结果。这种设计在提升模型容量的同时,通过稀疏激活(仅激活部分专家)显著降低计算成本。
核心组件:
- 专家网络(Experts):多个独立的子网络,通常为前馈神经网络(FFN),负责处理特定类型的输入。
- 门控网络(Gating Network):计算输入样本分配给每个专家的概率,通常通过Softmax或Top-K机制实现稀疏激活。
- 路由机制(Routing):根据门控网