QWen
QWen
-
输入长度:#card
- 32k
-
位置编码:#card
- RoPE
-
Bias部分删除:#card
- 对于大多数层,Qwen遵循陈卓辉等人的做法删除偏差,但对于注意力中的QKV层添加了偏差,以增强模型的外推能力
-
激活函数:#card
- SwiGLU
-
优化器:#card
- AdamW,设置超参数β1=0.9、β2=0.95和e=10^(−8)
-
[[Post Norm 和 Pre Norm 区别]] Pre-Norm:它已被证明比Post-Norm更能提高训练稳定性。
- 这里可以看下苏建林提供的理解:#card
- 本来残差的意思是给前面的层搞一条“绿色通道”,让梯度可以更直接地回传,但是在Post Norm中,这条“绿色通道”被严重削弱了,越靠近前面的通道反而权重越小,残差“名存实亡"。
- 这里可以看下苏建林提供的理解:#card
-
RMSNorm:用RMSNorm取代了传统LayerNorm#card
- RMSNorm为什么比LayerNorm好作者认为LayerNorm对张量所做的聚集中心化(re-centering)并不能够使梯度的方差减小,因此将均值μ=0。
-
训练数据:#card
- 2-3T token
-
模型大小:#card
- 开源了Qwen-1.8B、Qwen-7B、Qwen-14B 和 Qwen-72B
Qwen1.5 #card
-
1)输入长度:32768
-
2)GQA:32B和110B的模型使用
-
3)模型大小:开源了六种大小的基础和聊天模型,即0.5B、1.8B、4B、7B、14B、32B、72B 和 110B,以及 MoE 模型(64个expert)
Qwen2.0 #card
-
1)上下文长度:128k
-
2)注意力机制:GQA,相比MHA参数减少
-
3)模型大小:开源了0.5B、1.5B、7B、57B-A14B(共57B但激活14B)和72B等五种模型
Qwen2.5 #card
-
1)模型大小:开源了0.5B、1.5B、3B、7B、14B、32B和72B等七种模型
-
2)预训练数据:18T token
-
3)输入输出长度:支持128K token,并能生成最多 8K token的内容
Qwen2.5-MAX #card
-
1)模型大小:未知
-
2)模型结构:大规模 MoE 模型
-
3)训练数据:在20T+ token 上进行了预训练,并使用SFT和RLHF方法进行了后训练
QwQ-32B #card
-
1)模型大小:32B
-
2)训练方法:借鉴的DeepSeek-R1,直接进行两次大规模强化学习(RL):
-
第一次RL:针对"数学和编程任务",采用基于规则的奖励模型,进行RL训练。随着参数迭代,模型在两个领域中的性能均表现出持续的提升。
-
第二次RL:使用通用奖励模型和一些基于规则的验证器进行训练。通过少量步骤的通用 RL,可以提升其他通用能力,同时在"数学和编程任务"上的性能没有显著下降。
-
-
3)技术细节:未知(可能报告还没发出来)