AlpacaHome

GPT无痛入门指南(1)-MoE架构

Scaling-Law 介绍MoE前，首先要介绍Scaling-Law，这条定理的含义是，对于相同的Transform类网络结构下，最终网络的能力一般仅和训练数据量（训练数据Token数）、模型参数量、训练的计算量相关a： L(N,D)=(NcN)...

注意力机制基础注意力机制注意力机制的公式如下所示： attn(Q,K,V)=softmax(QKTdk)Vattn(Q,K,V) = softmax(\frac{QK^T}{\sqrt{d_k}}) V attn(Q,K,V)=softmax...