GPT无痛入门指南(1)-MoE架构 Scaling-Law 介绍MoE前,首先要介绍Scaling-Law,这条定理的含义是,对于相同的Transform类网络结构下,最终网络的能力一般仅和训练数据量(训练数据Token数)、模型参数量、训练的计算量相关a: L(N,D)=(NcN)...2025-10-19AI大模型
GPT无痛入门指南(0)-GPT网络架构和前向传播 注意力机制 基础注意力机制 注意力机制的公式如下所示: attn(Q,K,V)=softmax(QKTdk)Vattn(Q,K,V) = softmax(\frac{QK^T}{\sqrt{d_k}}) V attn(Q,K,V)=softmax...2025-10-13AI大模型