@DeepSeek中的强化学习:GRPO与RL统一视角
DeepSeek中的强化学习:GRPO与RL统一视角 - 知乎
[[RFT]]
[[DeepSeekMath]] 文章的核心在于强化学习算法GRPO提升LLM的数学推理能力
在LLM中PPO的优化目标为 #card
J_{P P O}(\theta)=E\left[q \sim P(Q), o \sim \pi_{\theta_{o l d}}(O \mid q)\right] \frac{1}{|o|} \Sigma_{t=1}^{|o|} \min \left[\frac{\pi_\theta\left(o_t \mid q, o_{<t}\right)}{\pi_{\theta_{\text {old }}}\left(o_t \mid q, o_{<t}\right)} A_t,\right. \
\left.\operatorname{clip}\left(\frac{\pi_\theta\left(o_t \mid q, o_{<t}\right)}{\pi_{\theta_{o l d}}\left(o_t \mid q, o_{<t}\right)}, 1-\epsilon, 1+\epsilon\right) A_t\right]
\end{gathered}
LLM中的PPO算法存在什么问题:#card + 在PPO中价值函数是和策略模型同样大小的另一个模型,回带来较重的内存和计算负担。 + 此外价值函数经常作为baseline来降低优势函数的方差 + 在LLM中奖励模型通常只对最后一个token评估奖励分,导致价值函数难以对每个token评估准确。 [\[\[Group Relative Policy Optimization\]\]](/post/logseq/Group%20Relative%20Policy%20Optimization.html) + [\[\[@PPO与GRPO中的KL散度近似计算\]\]](/post/logseq/%40PPO%E4%B8%8EGRPO%E4%B8%AD%E7%9A%84KL%E6%95%A3%E5%BA%A6%E8%BF%91%E4%BC%BC%E8%AE%A1%E7%AE%97.html) 计算无偏估计方法 #card + $D_{K L}\left[\pi_\theta \| \pi_{r e f}\right]=\frac{\pi_{r e f}\left(o_{i, t} \mid q, o_{i,<t}\right)}{\pi_\theta\left(o_{i, t} \mid q, o_{i,<t}\right)}-\log \frac{\pi_{r e f}\left(o_{i, t} \mid q, o_{i,<t}\right)}{\pi_\theta\left(o_{i, t} \mid q, o_{i,<t}\right)}-1$ [[LLM 中强化学习讨论]] + 至此deepseek将这几种方法纳入到了统一的RL视角中,并总结了在数据源(问题和对应输出)、奖励函数和梯度项的差异,这样看确实更一目了然。 [[问题来了:为什么RL是work的,如何设计更有效的RL方法?]] GRPO的过程监督这里写的不太对。他们将推理过程分成了一个个的step。每一个step会统计一个reward。#card + 对于每一个token,将大于这些token后的归一化后的step的reward加起来,就是最终的Ait。 + 顺便说一下,结果监督和过程监督这里应该是并列关系。由于结果监督是采样到完成的o后,才会产生一次reward信号,则不够高效,所以后面又提出过程监督,增加效率。 + 感谢,这里粗糙了,我补一下。r1-zero中设有两个奖励信号,一个是判断回答是否正确,一个是回答的格式奖励。 但是再R1-zero中,deepseek应该把过程监督去掉了,只用结果监督应该就行了,有点像alpha go zero,将终局的reward信号直接分发给中间的每个st,at。#card + 取消过程监督的原因是the neural reward model may suffer from reward hacking in the large-scale reinforcement learning process,推理过程中的奖励信号不一定准确,推理过程中奖励高不代表结果正确
@DeepSeek中的强化学习:GRPO与RL统一视角
https://blog.xiang578.com/post/logseq/@DeepSeek中的强化学习:GRPO与RL统一视角.html