2025-02-232025-03-23 随手记 5 分钟读完 (大约799个字) 0次访问

@DeepSeek中的强化学习：GRPO与RL统一视角

[[RFT]]

[[DeepSeekMath]] 文章的核心在于强化学习算法GRPO提升LLM的数学推理能力

在LLM中PPO的优化目标为 #card

J_{P P O}(\theta)=E\left[q \sim P(Q), o \sim \pi_{\theta_{o l d}}(O \mid q)\right] \frac{1}{|o|} \Sigma_{t=1}^{|o|} \min \left[\frac{\pi_\theta\left(o_t \mid q, o_{<t}\right)}{\pi_{\theta_{\text {old }}}\left(o_t \mid q, o_{<t}\right)} A_t,\right. \
\left.\operatorname{clip}\left(\frac{\pi_\theta\left(o_t \mid q, o_{<t}\right)}{\pi_{\theta_{o l d}}\left(o_t \mid q, o_{<t}\right)}, 1-\epsilon, 1+\epsilon\right) A_t\right]
\end{gathered}

LLM中的PPO算法存在什么问题：#card + 在PPO中价值函数是和策略模型同样大小的另一个模型，回带来较重的内存和计算负担。 + 此外价值函数经常作为baseline来降低优势函数的方差 + 在LLM中奖励模型通常只对最后一个token评估奖励分，导致价值函数难以对每个token评估准确。 [\[\[Group Relative Policy Optimization\]\]](/post/logseq/Group%20Relative%20Policy%20Optimization.html) + [\[\[@PPO与GRPO中的KL散度近似计算\]\]](/post/logseq/%40PPO%E4%B8%8EGRPO%E4%B8%AD%E7%9A%84KL%E6%95%A3%E5%BA%A6%E8%BF%91%E4%BC%BC%E8%AE%A1%E7%AE%97.html) 计算无偏估计方法 #card + $D_{K L}\left[\pi_\theta \| \pi_{r e f}\right]=\frac{\pi_{r e f}\left(o_{i, t} \mid q, o_{i,<t}\right)}{\pi_\theta\left(o_{i, t} \mid q, o_{i,<t}\right)}-\log \frac{\pi_{r e f}\left(o_{i, t} \mid q, o_{i,<t}\right)}{\pi_\theta\left(o_{i, t} \mid q, o_{i,<t}\right)}-1$ [[LLM 中强化学习讨论]] + 至此deepseek将这几种方法纳入到了统一的RL视角中，并总结了在数据源(问题和对应输出)、奖励函数和梯度项的差异，这样看确实更一目了然。 [[问题来了：为什么RL是work的，如何设计更有效的RL方法？]] GRPO的过程监督这里写的不太对。他们将推理过程分成了一个个的step。每一个step会统计一个reward。#card + 对于每一个token，将大于这些token后的归一化后的step的reward加起来，就是最终的Ait。 + 顺便说一下，结果监督和过程监督这里应该是并列关系。由于结果监督是采样到完成的o后，才会产生一次reward信号，则不够高效，所以后面又提出过程监督，增加效率。 + 感谢，这里粗糙了，我补一下。r1-zero中设有两个奖励信号，一个是判断回答是否正确，一个是回答的格式奖励。 但是再R1-zero中，deepseek应该把过程监督去掉了，只用结果监督应该就行了，有点像alpha go zero,将终局的reward信号直接分发给中间的每个st，at。#card + 取消过程监督的原因是the neural reward model may suffer from reward hacking in the large-scale reinforcement learning process，推理过程中的奖励信号不一定准确，推理过程中奖励高不代表结果正确

@DeepSeek中的强化学习：GRPO与RL统一视角

https://blog.xiang578.com/post/logseq/@DeepSeek中的强化学习：GRPO与RL统一视角.html

作者

Ryen Xiang

发布于

2025-02-23

更新于

2025-03-23

@DeepSeek中的强化学习：GRPO与RL统一视角

作者

发布于

更新于

许可协议

网络回响

评论

最新文章