QWen

QWen

  • 输入长度:#card

    • 32k
  • 位置编码:#card

    • RoPE
  • Bias部分删除:#card

    • 对于大多数层,Qwen遵循陈卓辉等人的做法删除偏差,但对于注意力中的QKV层添加了偏差,以增强模型的外推能力
  • 激活函数:#card

    • SwiGLU
  • 优化器:#card

    • AdamW,设置超参数β1=0.9、β2=0.95和e=10^(−8)
  • [[Post Norm 和 Pre Norm 区别]] Pre-Norm:它已被证明比Post-Norm更能提高训练稳定性。

    • 这里可以看下苏建林提供的理解:#card
      • 本来残差的意思是给前面的层搞一条“绿色通道”,让梯度可以更直接地回传,但是在Post Norm中,这条“绿色通道”被严重削弱了,越靠近前面的通道反而权重越小,残差“名存实亡"。
  • RMSNorm:用RMSNorm取代了传统LayerNorm#card

    • RMSNorm为什么比LayerNorm好作者认为LayerNorm对张量所做的聚集中心化(re-centering)并不能够使梯度的方差减小,因此将均值μ=0。
  • 训练数据:#card

    • 2-3T token
  • 模型大小:#card

    • 开源了Qwen-1.8B、Qwen-7B、Qwen-14B 和 Qwen-72B

Qwen1.5 #card

  • 1)输入长度:32768

  • 2)GQA:32B和110B的模型使用

  • 3)模型大小:开源了六种大小的基础和聊天模型,即0.5B、1.8B、4B、7B、14B、32B、72B 和 110B,以及 MoE 模型(64个expert)

Qwen2.0 #card

  • 1)上下文长度:128k

  • 2)注意力机制:GQA,相比MHA参数减少

  • 3)模型大小:开源了0.5B、1.5B、7B、57B-A14B(共57B但激活14B)和72B等五种模型

Qwen2.5 #card

  • 1)模型大小:开源了0.5B、1.5B、3B、7B、14B、32B和72B等七种模型

  • 2)预训练数据:18T token

  • 3)输入输出长度:支持128K token,并能生成最多 8K token的内容

Qwen2.5-MAX #card

  • 1)模型大小:未知

  • 2)模型结构:大规模 MoE 模型

  • 3)训练数据:在20T+ token 上进行了预训练,并使用SFT和RLHF方法进行了后训练

QwQ-32B #card

  • 1)模型大小:32B

  • 2)训练方法:借鉴的DeepSeek-R1,直接进行两次大规模强化学习(RL):

    • 第一次RL:针对"数学和编程任务",采用基于规则的奖励模型,进行RL训练。随着参数迭代,模型在两个领域中的性能均表现出持续的提升。

    • 第二次RL:使用通用奖励模型和一些基于规则的验证器进行训练。通过少量步骤的通用 RL,可以提升其他通用能力,同时在"数学和编程任务"上的性能没有显著下降。

  • 3)技术细节:未知(可能报告还没发出来)

作者

Ryen Xiang

发布于

2025-04-01

更新于

2025-04-23

许可协议


网络回响

评论