2025-04-012025-04-23 随手记 5 分钟读完 (大约751个字) 0次访问

QWen

输入长度：#card
- 32k
位置编码：#card
- RoPE
Bias部分删除：#card
- 对于大多数层，Qwen遵循陈卓辉等人的做法删除偏差，但对于注意力中的QKV层添加了偏差，以增强模型的外推能力
激活函数：#card
- SwiGLU
优化器：#card
- AdamW，设置超参数β1=0.9、β2=0.95和e=10^(−8)
[[Post Norm 和 Pre Norm 区别]] Pre-Norm：它已被证明比Post-Norm更能提高训练稳定性。
- 这里可以看下苏建林提供的理解：#card
  - 本来残差的意思是给前面的层搞一条“绿色通道”，让梯度可以更直接地回传，但是在Post Norm中，这条“绿色通道”被严重削弱了，越靠近前面的通道反而权重越小，残差“名存实亡"。
RMSNorm：用RMSNorm取代了传统LayerNorm#card
- RMSNorm为什么比LayerNorm好作者认为LayerNorm对张量所做的聚集中心化(re-centering)并不能够使梯度的方差减小，因此将均值μ=0。
训练数据：#card
- 2-3T token
模型大小：#card
- 开源了Qwen-1.8B、Qwen-7B、Qwen-14B 和 Qwen-72B

Qwen1.5 #card

Qwen2.0 #card

Qwen2.5 #card

Qwen2.5-MAX #card

QwQ-32B #card

1）模型大小：32B
2）训练方法：借鉴的DeepSeek-R1，直接进行两次大规模强化学习（RL）：
- 第一次RL：针对"数学和编程任务"，采用基于规则的奖励模型，进行RL训练。随着参数迭代，模型在两个领域中的性能均表现出持续的提升。
- 第二次RL：使用通用奖励模型和一些基于规则的验证器进行训练。通过少量步骤的通用 RL，可以提升其他通用能力，同时在"数学和编程任务"上的性能没有显著下降。
3）技术细节：未知（可能报告还没发出来）

QWen

Ryen Xiang

2025-04-01

2025-04-23

网络回响